基于卷积神经网络的文献分类在水稻抗逆基因数据库中的应用
水稻在我国粮食作物中有着重要的地位,水稻在非生物逆境情况下的基因研究对我国的粮食安全有着重大的意义.随着科学技术的不断发展,获取水稻信息的技术手段不断增多,关于水稻的生物信息数据呈指数式增长,如何快速、准确的从海量的水稻生物信息中分类出含有抗逆基因的文献并搜集出水稻抗逆基因数据,已经逐渐成为一个迫切需要解决的难题.本文的研究基于"作物抗逆育种与减灾工程实验室委托的主要农作物抗逆基因库"的课题,利用卷积神经网络模型对水稻文献摘要进行分类,筛选出含有水稻抗逆基因数据的水稻文献,并提出文献中抗逆基因数据,构建水稻抗逆基因数据库,以便更好的服务于科研人员.本文的研究内容如下:(1)本文对分类模型进行对比分析确定了适合文献分类的分类模型.实验选取2000篇非生物逆境条件下的水稻文献摘要分为测试数据集和训练数据集,利用K最近邻方法、朴素贝叶斯方法与卷积神经网络方法构建模型并对测试数据集进行文献分类,将实验结果根据准确率、召回率、F-测量值三个评价标准进行对比分析,得出卷积神经网络模型是三种文本分类模型中分类效果最好的.(2)使用卷积神经网络模型对文献摘要进行分类.本文将爬虫技术搜集到2830篇非生物逆境条件下的水稻文献摘要作为文本数据集,首先对文本数据集进行编码等预处理,通过word2vec训练文本数据集得到词向量,利用基因类型作为文本分类的输入特征;然后构建向量矩阵并输入CNN神经网络模型,经过卷积层、池化层、全连接层输出分类结果.(3)根据卷积神经网络文献分类得到含有抗逆基因的有关文献,构建水稻抗逆基因数据库.首先,对分类后的文献进行研究与分析,提取文献中包含的水稻抗逆基因信息数据;然后,利用JSON的数据交换格式进行数据传输,使用MySQL数据库存储信息,并通过AJAX技术进行前后端数据交互,构建并展示水稻抗逆基因数据库.本文利用卷积神经网络模型对水稻文献进行分类,提高了文献的检索效率与准确率,有利于水稻抗逆基因文献的收集与研究;构建了水稻抗逆基因数据库,有利于水稻抗逆基因数据的管理、更新和维护,还能够更好的为科研工作者在信息获取方面进行服务.
- 作者:
- 吴盼荣
- 学位授予单位:
- 安徽农业大学
- 专业名称:
- 农业硕士(专业学位)
- 授予学位:
- 硕士
- 学位年度:
- 2018年
- 导师姓名:
- 吴云志
- 中图分类号:
- S511
- 关键词:
- 卷积神经网络;文献分类;朴素贝叶斯;K最近邻;word2vec;水稻抗逆基因数据库
- Convolutional neural network; Literature classification; Naive Bayesian; K-nearest neighbor; word2vec; Rice stress-resistance database