自动版面分析技术

CNKI的自动版面分析技术着重于图像资源的结构化信息构建目标,通过自动版面分析和理解,划分出文献的目录、篇、章节、段落、图片、表格等信息,最后构建出文献的知识结构。该技术已成功应用于本公司的期刊、学位论文等知识源数据库以及统计年鉴表格数据库。

目前,已有技术支持页眉页脚、版心、栏目、脚注、目录、参考文献、篇章节段落层次划分,图表公式识别,图形、表格主题与与标题注解的关联。除此之外,提供目录链接、文内参考链接、篇名、作者机构、关键词、摘要、CIP数据等形式元数据的识别,满足深度文档资源的结构化加工需求,具备高效、高性能指标,在知网海量数据结构化加工的实际生产应用中确定显著效果。

1、版面分析实际效果如下图所示,展示了对页眉页脚、版心、段落、章节、图形图像、表格的识别以及图形图像和图题的关联、表格主题和表标题的关联:

2、公式识别效果如下图所示,支持行内和行外公式识别。

3、目录识别和按目录分篇的效果如下图所示:

4、按规则分篇和元数据标引效果如下图所示:

5、参考文献(引文)识别效果如下图所示: