网页属性抽取的方法研究
Web Page Attribute Extraction Method Research
Web信息的大量出现使得Web中存在的各种半结构化信息与日俱增.但是,Web中可访问到的信息大都以半结构化的html网页结构形式出现,无法被各种类型的应用程序直接获取和使用.所以,对于实现自动抽取html网页中半结构化数据的Web抽取技术已经成为当今的一个研究热点.研究人员进行了大量针对Web信息抽取的研究,并且出现了许多基于不同原理的Web信息抽取技术.根据实际需求,本文对新闻网页的作者识别问题和Wrapper失效检测问题做了深入研究,并尝试解决.本文的工作与贡献主要包含以下三方面:1.提出了一种新闻网页的作者识别机制:该机制在借鉴纯文本的中文姓名识别方法的基础上,结合中文姓名特征、新闻作者的上下文特征和网页的结构特征,并利用互信息理论,本文提出了新闻网页的中文作者识别机制.2.提出了一种Wrapper失效检测机制:基于Wrapper归纳的信息抽取方法是实际网络应用中常用的网络信息抽取方法.我们从实际应用需求出发,借鉴已有研究成果,提出了满足需求的Wrapper失效检测机制.该机制通过计算Wrapper抽取结果集中的各项属性的数字特征值概率来判断Wrapper是否失效.为后期Wrapper自动维护提供了必备的依据.3.为了满足实际应用的需求,本文基于新闻网页的中文作者识别机制以及其他算法开发了新闻网页的作者、来源抽取组件.该组件为后期的舆情分析提供了重要的基础数据.该组件已经应用于实际项目中,并取得了不错的效果.
- 作者:
- 邓庆顺
- 学位授予单位:
- 辽宁科技大学
- 专业名称:
- 计算机应用技术
- 授予学位:
- 硕士
- 学位年度:
- 2012年
- 导师姓名:
- 张学东
- 中图分类号:
- TP391.1
- 关键词:
- Web信息抽取;中文人名识别;Wrapper;Wrapper失效检测
- Web information extraction;Chinese personal name recognition;Wrapper;Wrapper failure detection