中文版面分析与重构研究
将以纸张为介质的文档信息自动转换成数字形式是一项很有意义的工作。经过数字化,可以很容易地实现对文档基于内容的检索,可以用较少的存储空间保存较多的文档资料。 在印刷文档数字化过程中,版面的分析、理解与重构是十分关键的问题。本文结合一个实际开发的文档自动处理系统,重点探讨了这三方面的实现技术。针对复杂程度各异的中文文档,提出了一个基于复杂度策略选择的版面分析方法。对于简单版面采用快速有效的基于投影的自顶向下版面分析方法;而复杂版面则采用适应性较强的基于模糊连接度和行列置信度的自底向上版面分析方法。版面理解的实现使用基于规则的方法。版面重构的技术和实现围绕RTF和HTML两种文档格式来讨论。综合这些技术和算法并结合文字、表格识别等模块,实现了完整的自动文档处理系统。实验和实际运行的系统证明了所采用方法的有效性和系统的实用性。
- 作者:
- 王宇
- 学位授予单位:
- 河北大学
- 专业名称:
- 计算机应用技术
- 授予学位:
- 硕士
- 学位年度:
- 2003年
- 导师姓名:
- 田学东
- 中图分类号:
- TP391.4
- 关键词:
- 中文版面;中文版面分析;版面重构;文字识别;表格识别;自动文档处理
- Character recognition;Layout analysis;Layout understanding;Layout reconstruction;Skew correction