非文本优先的版面分析方法
Layout Analysis Method with Antecedent Non_text Regions
版面分析是版面信息处理系统的重要组成部分,旨在将纸制文档内容转化为电子信息,以便进一步通过版面理解实现版面数字化.版面分析的正确性,直接影响到版面理解的结果,进而决定着版面信息处理系统输出结果的语义关系和逻辑关系是否正确.因此,对版面分析的研究具有重要的理论意义与实用价值.由于非文本域对文本域的提取会造成干扰,所以该文提出了一种非文本块优先的中文版面分析方法.首先基于视窗变换的方法对版面的倾斜进行校正,然后提取并去除文档图像中的非文本块,避免其对文本块提取的干扰.该文采用了投影法和基于游程平滑和最小生成树聚类的分析方法,分别对非嵌入式和嵌入式矩形版面进行处理.最后采用基于有向图的算法,对版面对象的顺序进行确定.实验表明,该方法对矩形版面有较好的分割效果.
- 作者:
- 郑文良
- 学位授予单位:
- 沈阳理工大学
- 专业名称:
- 计算机应用技术
- 授予学位:
- 硕士
- 学位年度:
- 2009年
- 导师姓名:
- 宋凯
- 中图分类号:
- TP391.1
- 关键词:
- 版面分析;版面理解;游程平滑;倾斜检测
- Layout Analysis;Layout Understanding;Run-length Smoothing Algorithm;Skew Detection