辽宁学术搜索 - 详细信息

	搜索小提示
1、多个搜索词用“+”连接，系统作逻辑或运算处理； 2、系统默认开启中英文互译功能，您可在搜索设置中关闭； 3、在搜索内容加上“半角引号”，系统将对搜索内容做精确检索； 4、多个搜索词用“空格”或“*”连接时，系统做逻辑与运算处理； 5、系统默认开启检索词提示，您可在搜索设置中关闭。

分享到：

基于神经网络的Web信息识别框架设计与实现
The Design & Implementation for a Web Information Extraction Framework Based on Artificial Neural Network

随着Internet的迅猛发展,Web已成为最重要的知识库之一.对这些知识进行高效快速的检索、识别和抽取并加以利用,具有良好的应用前景和应用价值.Web信息抽取的目标是从多个异构的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化形式表示.Internet上的Web页面固有的数量巨大、异构且动态变化的特点,给Web信息抽取带来了复杂性、可扩展性和适应性等方面的问题. 本文在分析Html半结构化文档特点的基础上,提出基于BP神经网络的Web信息抽取系统框架结构.设计的Web信息抽取框架包括几个知识库以及网页预处理、文章信息抽取、表格信息抽取、表格抽取规则和神经网络无个子模块,分别从语义内容表示、逻辑结构、规则生成以及抽取结果四个层面对Web页面进行描述.本文的工作重点是基于BP神经网络的规则学习方法,规则的表示结合网页的数字特征、左右边界特征和语义特征来定义.神经网络将样本集中过滤后的Html字符行的数字特征作为网络的输入,标注抽取结果作为理想输出,通过反向传播学习算法对网络进行训练.训练结束后,根据规则学习算法学习生成简单、健壮的规则库,以供信息抽取模块使用.最后对框架进行了测试,测试结果表明,系统可以对感兴趣领域进行抽取规则学习,具有良好的抽取效果和扩展能力. 本文所设计的框架中,表格抽取部分目前应用于美国医师认证系统中,获得用户的良好评价.

作者：: 杨海冬

学位授予单位：: 信息科学与工程学院

专业名称：: 计算机系统结构学科

授予学位：: 硕士

学位年度：: 2008年

导师姓名：: 余克清

关键词：: Web信息识别；神经网络；数据抽取；模式识别；BP算法Web information identification；neural network；Information extraction；Mode identification；BP Algorithm

原文获取

该文献暂无原文链接!

该文献暂无参考文献!

该文献暂无引证文献!

相似期刊

相似会议

相似学位

作者科研合作关系：

点击图标浏览作者科研合作关系，以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络：

点击图标浏览该主题词的知识脉络关系，包括相关主题词、机构、人物和发文刊物等。

作者科研合作关系：

主题知识脉络：

检索设置