高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

基于神经网络的Web信息识别框架设计与实现
The Design & Implementation for a Web Information Extraction Framework Based on Artificial Neural Network

随着Internet的迅猛发展,Web已成为最重要的知识库之一.对这些知识进行高效快速的检索、识别和抽取并加以利用,具有良好的应用前景和应用价值.Web信息抽取的目标是从多个异构的Web站点中定位和识别感兴趣的信息,并将抽取结果以统一的结构化形式表示.Internet上的Web页面固有的数量巨大、异构且动态变化的特点,给Web信息抽取带来了复杂性、可扩展性和适应性等方面的问题. 本文在分析Html半结构化文档特点的基础上,提出基于BP神经网络的Web信息抽取系统框架结构.设计的Web信息抽取框架包括几个知识库以及网页预处理、文章信息抽取、表格信息抽取、表格抽取规则和神经网络无个子模块,分别从语义内容表示、逻辑结构、规则生成以及抽取结果四个层面对Web页面进行描述.本文的工作重点是基于BP神经网络的规则学习方法,规则的表示结合网页的数字特征、左右边界特征和语义特征来定义.神经网络将样本集中过滤后的Html字符行的数字特征作为网络的输入,标注抽取结果作为理想输出,通过反向传播学习算法对网络进行训练.训练结束后,根据规则学习算法学习生成简单、健壮的规则库,以供信息抽取模块使用.最后对框架进行了测试,测试结果表明,系统可以对感兴趣领域进行抽取规则学习,具有良好的抽取效果和扩展能力. 本文所设计的框架中,表格抽取部分目前应用于美国医师认证系统中,获得用户的良好评价.

作者:
杨海冬
学位授予单位:
信息科学与工程学院
专业名称:
计算机系统结构学科
授予学位:
硕士
学位年度:
2008年
导师姓名:
余克清
关键词:
Web信息识别;神经网络;数据抽取;模式识别;BP算法Web information identification;neural network;Information extraction;Mode identification;BP Algorithm
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是