高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

网页属性抽取的方法研究
Web Page Attribute Extraction Method Research

Web信息的大量出现使得Web中存在的各种半结构化信息与日俱增.但是,Web中可访问到的信息大都以半结构化的html网页结构形式出现,无法被各种类型的应用程序直接获取和使用.所以,对于实现自动抽取html网页中半结构化数据的Web抽取技术已经成为当今的一个研究热点.研究人员进行了大量针对Web信息抽取的研究,并且出现了许多基于不同原理的Web信息抽取技术.根据实际需求,本文对新闻网页的作者识别问题和Wrapper失效检测问题做了深入研究,并尝试解决.本文的工作与贡献主要包含以下三方面:1.提出了一种新闻网页的作者识别机制:该机制在借鉴纯文本的中文姓名识别方法的基础上,结合中文姓名特征、新闻作者的上下文特征和网页的结构特征,并利用互信息理论,本文提出了新闻网页的中文作者识别机制.2.提出了一种Wrapper失效检测机制:基于Wrapper归纳的信息抽取方法是实际网络应用中常用的网络信息抽取方法.我们从实际应用需求出发,借鉴已有研究成果,提出了满足需求的Wrapper失效检测机制.该机制通过计算Wrapper抽取结果集中的各项属性的数字特征值概率来判断Wrapper是否失效.为后期Wrapper自动维护提供了必备的依据.3.为了满足实际应用的需求,本文基于新闻网页的中文作者识别机制以及其他算法开发了新闻网页的作者、来源抽取组件.该组件为后期的舆情分析提供了重要的基础数据.该组件已经应用于实际项目中,并取得了不错的效果.

作者:
邓庆顺
学位授予单位:
辽宁科技大学
专业名称:
计算机应用技术
授予学位:
硕士
学位年度:
2012年
导师姓名:
张学东
中图分类号:
TP391.1
关键词:
Web信息抽取;中文人名识别;Wrapper;Wrapper失效检测
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是