基于神经网络的Web信息识别框架设计与实现
The Design & Implementation for a Web Information Extraction Framework Based on Artificial Neural Network
随着Internet的迅猛发展,Web已成为最重要的知识库之一.对这些知识进行高效快速的检索、识别和抽取并加以利用,具有良好的应用前景和应用价值.Web信息抽取的目标是从多个异构的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化形式表示.Internet上的Web页面固有的数量巨大、异构且动态变化的特点,给Web信息抽取带来了复杂性、可扩展性和适应性等方面的问题. 本文在分析Html半结构化文档特点的基础上,提出基于BP神经网络的Web信息抽取系统框架结构.设计的Web信息抽取框架包括几个知识库以及网页预处理、文章信息抽取、表格信息抽取、表格抽取规则和神经网络无个子模块,分别从语义内容表示、逻辑结构、规则生成以及抽取结果四个层面对Web页面进行描述.本文的工作重点是基于BP神经网络的规则学习方法,规则的表示结合网页的数字特征、左右边界特征和语义特征来定义.神经网络将样本集中过滤后的Html字符行的数字特征作为网络的输入,标注抽取结果作为理想输出,通过反向传播学习算法对网络进行训练.训练结束后,根据规则学习算法学习生成简单、健壮的规则库,以供信息抽取模块使用.最后对框架进行了测试,测试结果表明,系统可以对感兴趣领域进行抽取规则学习,具有良好的抽取效果和扩展能力. 本文所设计的框架中,表格抽取部分目前应用于美国医师认证系统中,获得用户的良好评价.
- 作者:
- 杨海冬
- 学位授予单位:
- 信息科学与工程学院
- 专业名称:
- 计算机系统结构学科
- 授予学位:
- 硕士
- 学位年度:
- 2008年
- 导师姓名:
- 余克清
- 关键词:
- Web信息识别;神经网络;数据抽取;模式识别;BP算法Web information identification;neural network;Information extraction;Mode identification;BP Algorithm
-