基于自训练的决策式依存句法分析技术的研究
决策式依存句法分析技术是一种数据驱动的句法分析技术,它采用的是标准的有监督机器学习方法,因此决策式依存句法分析器对有标注数据存在依赖性,也就是当有标注数据充足并且与待标注数据领域匹配时,分析器性能最佳,否则分析器的性能将会下降.针对这一问题,本课题结合自训练这种半监督机器学习方法,提出了一种基于自训练的决策式依存句法分析方法.该方法在决策自信度的基础上利用句型的互异关系选择出少量用原始模型标注出的未标注数据,由此可在有标注数据不充足或者与待测试数据领域不匹配的情况下提升分析器的性能.经典决策式依存句法分析器存在贪婪性,这导致分析结果中的一些错误具有一些共性.本课题根据这些共性定义了两种根偏置子树,并提出了基于根偏置子树的依存句法分析方法对句子中的根偏置子树进行预分析,之后再分析预分析后的句子.实验结果表明,基于根偏置子树的依存句法分析方法可以保证句子整体分析错误不增加的情况下提升根偏置子树的分析正确率,以此提升分析器的性能.其次本课题在经典决策式依存句法分析器的基础上提出了基于自训练的决策式依存句法分析方法,该方法首先使用原始有标注数据对无标注数据进行标注,然后利用本文提出的基于自信度的数据选择策略和在此基础上提出的基于句型互异程度的数据选择策略选择出高质量并且句子结构相对多样的数据加入原始有标注数据,之后重新训练模型,最后用新模型对待标注数据进行标注.实验结果表明在有标注数据缺乏或者与测试数据领域不匹配时,基于自训练的决策式依存句法分析器比原始分析器具有更好的性能和领域适应能力,并且本文提出的两种数据选择策略均比随机选择拥有更好的效果.最后,本课题设计并实现了基于自训练的决策式依存句法分析器.该系统支持使用标准的有监督机器学习方法训练依存句法分析模型,同样支持自训练方式的依存句法分析模型训练,还支持决策式依存句法分析.
- 作者:
- 夏大伟
- 学位授予单位:
- 沈阳航空航天大学
- 专业名称:
- 计算机技术
- 授予学位:
- 硕士
- 学位年度:
- 2015年
- 导师姓名:
- 张桂平
- 中图分类号:
- TP391.1
- 关键词:
- 自训练;决策式依存句法分析;自信度;依存句法分析;半监督机器学习
- Self-Training; Transition-Based Dependency Parsing; Certainty; Dependency Parsing; Semi-Supervised Learning