辽宁学术搜索 - 详细信息

	搜索小提示
1、多个搜索词用“+”连接，系统作逻辑或运算处理； 2、系统默认开启中英文互译功能，您可在搜索设置中关闭； 3、在搜索内容加上“半角引号”，系统将对搜索内容做精确检索； 4、多个搜索词用“空格”或“*”连接时，系统做逻辑与运算处理； 5、系统默认开启检索词提示，您可在搜索设置中关闭。

分享到：

网页属性抽取的方法研究
Web Page Attribute Extraction Method Research

Web信息的大量出现使得Web中存在的各种半结构化信息与日俱增.但是,Web中可访问到的信息大都以半结构化的html网页结构形式出现,无法被各种类型的应用程序直接获取和使用.所以,对于实现自动抽取html网页中半结构化数据的Web抽取技术已经成为当今的一个研究热点.研究人员进行了大量针对Web信息抽取的研究,并且出现了许多基于不同原理的Web信息抽取技术.根据实际需求,本文对新闻网页的作者识别问题和Wrapper失效检测问题做了深入研究,并尝试解决.本文的工作与贡献主要包含以下三方面:1.提出了一种新闻网页的作者识别机制:该机制在借鉴纯文本的中文姓名识别方法的基础上,结合中文姓名特征、新闻作者的上下文特征和网页的结构特征,并利用互信息理论,本文提出了新闻网页的中文作者识别机制.2.提出了一种Wrapper失效检测机制:基于Wrapper归纳的信息抽取方法是实际网络应用中常用的网络信息抽取方法.我们从实际应用需求出发,借鉴已有研究成果,提出了满足需求的Wrapper失效检测机制.该机制通过计算Wrapper抽取结果集中的各项属性的数字特征值概率来判断Wrapper是否失效.为后期Wrapper自动维护提供了必备的依据.3.为了满足实际应用的需求,本文基于新闻网页的中文作者识别机制以及其他算法开发了新闻网页的作者、来源抽取组件.该组件为后期的舆情分析提供了重要的基础数据.该组件已经应用于实际项目中,并取得了不错的效果.

作者：: 邓庆顺

学位授予单位：: 辽宁科技大学

专业名称：: 计算机应用技术

授予学位：: 硕士

学位年度：: 2012年

导师姓名：: 张学东

中图分类号：: TP391.1

关键词：: Web信息抽取；中文人名识别；Wrapper；Wrapper失效检测; Web information extraction；Chinese personal name recognition；Wrapper；Wrapper failure detection

原文获取

该文献暂无原文链接!

该文献暂无参考文献!

该文献暂无引证文献!

相似期刊

相似会议

相似学位

作者科研合作关系：

点击图标浏览作者科研合作关系，以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络：

点击图标浏览该主题词的知识脉络关系，包括相关主题词、机构、人物和发文刊物等。

作者科研合作关系：

主题知识脉络：

检索设置