高级检索
全部 主题 学科 机构 人物 基金
词表扩展: 自动翻译: 模糊检索:
当前位置:首页>
分享到:

中文版面分析与重构研究

将以纸张为介质的文档信息自动转换成数字形式是一项很有意义的工作。经过数字化,可以很容易地实现对文档基于内容的检索,可以用较少的存储空间保存较多的文档资料。 在印刷文档数字化过程中,版面的分析、理解与重构是十分关键的问题。本文结合一个实际开发的文档自动处理系统,重点探讨了这三方面的实现技术。针对复杂程度各异的中文文档,提出了一个基于复杂度策略选择的版面分析方法。对于简单版面采用快速有效的基于投影的自顶向下版面分析方法;而复杂版面则采用适应性较强的基于模糊连接度和行列置信度的自底向上版面分析方法。版面理解的实现使用基于规则的方法。版面重构的技术和实现围绕RTF和HTML两种文档格式来讨论。综合这些技术和算法并结合文字、表格识别等模块,实现了完整的自动文档处理系统。实验和实际运行的系统证明了所采用方法的有效性和系统的实用性。

作者:
王宇
学位授予单位:
河北大学
专业名称:
计算机应用技术
授予学位:
硕士
学位年度:
2003年
导师姓名:
田学东
中图分类号:
TP391.4
关键词:
中文版面;中文版面分析;版面重构;文字识别;表格识别;自动文档处理
原文获取
正在处理中...
该文献暂无原文链接!
该文献暂无参考文献!
该文献暂无引证文献!
相似期刊
相似会议
相似学位
相关机构
正在处理中...
相关专家
正在处理中...
您的浏览历史
正在处理中...
友情提示

作者科研合作关系:

点击图标浏览作者科研合作关系,以及作者相关工作单位、简介和作者主要研究领域、研究方向、发文刊物及参与国家基金项目情况。

主题知识脉络:

点击图标浏览该主题词的知识脉络关系,包括相关主题词、机构、人物和发文刊物等。

关于我们 | 用户反馈 | 用户帮助| 辽ICP备05015110号-2

检索设置


请先确认您的浏览器启用了 cookie,否则无法使用检索设置!  如何启用cookie?

  1. 检索范围

    所有语言  中文  外文

  2. 检索结果每页记录数

    10条  20条  30条

  3. 检索结果排序

    按时间  按相关度  按题名

  4. 结果显示模板

    列表  表格

  5. 检索结果中检索词高亮

    是 

  6. 是否开启检索提示

    是 

  7. 是否开启划词助手

    是 

  8. 是否开启扩展检索

    是 

  9. 是否自动翻译

    是