面向代谢网络分析的二代测序数据分析工具整合与应用研究
脱氧核苷酸DNA(Deoxyribonucleic acid)分子的双螺旋结构的发现标志着生物学从传统生物学到分子生物学的跨越.从二十世纪七十年代Sanger测序技术的诞生开始,研究人员开始逐步研究生物系统中基因序列-蛋白质-生化反应的生物信息流的走向,并从中挖掘出基因序列中蕴含的分子结构的特性、生物网络状态等信息.本文在前人工作的基础上,从转录组的序列的信息出发,找到序列中包含的酶的信息,并基本形成了从二代测序数据到代谢网络酶的信息注释工具,并基本完成了从基因序列到代谢网络的分析过程,其中包括整合的二代测序数据分析工具、酶序列信息数据库以及代谢网络比对等.本文将常用的二代测序数据分析工具整合在Java桌面应用程序下,方便生物学家对序列数据进行处理;同时利用计算机的爬虫技术收集和整理美国生物技术信息中心NCBI(US National Center for Biotechnology Information)的DNA序列数据库、日本京都基因与基因组数据库KEGG(Kyoto Encyclopedia of Genes and Genomes)中酶的信息,构建了本地化的酶序列数据库;通过上述酶的序列信息快速的构建了代谢网络模型,并完成代谢网络比对算法的设计.最后,本文对比研究了基于酶的序列和酶的编码值对代谢网络的比对结果的影响,发现酶序列信息得到的结果更能够反映物种之间的进化关系.本文的研究拓展了二代测序数据的应用,方便了生物学者对代谢网络中酶的研究,提供了从多角度对代谢网络比对的分析,对于发酵工业,生物医药的研究具有重要意义.
- 作者:
- 周文卫
- 学位授予单位:
- 贵州师范大学
- 专业名称:
- 计算机科学与技术
- 授予学位:
- 硕士
- 学位年度:
- 2016年
- 导师姓名:
- 景凤宣
- 中图分类号:
- Q811.4
- 关键词:
- DNA;二代测序数据;代谢网络;可视化;比对
- DNA; second generation sequencing data; metabolic network; visuailzation; alignment