关于历史报纸数字化的生产工艺要求及OCR识别方案

来源: 乐山全新媒体公司

广告:

一、整理登记

历史报纸数字化的各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化工作完成的同时建立起完整、规范的记录。

二、扫描流程

历史报纸数字化的基本环节主要包括:报纸整理、报纸扫描、图像处理、图像存储、装订、数据挂接等。

三、目录数据准备

规范报纸中的目录内容。包括确定报纸目录的著录项、字段长度和内容要求。如有错误或不规范的期号、正标、副标、正文、繁体、竖排、图片、起止版号和版数等,应进行修改。

四、拆除装订

在装订物影响扫描工作进行的档案,应拆除装订物。拆除装订物时应注意保护报纸不受损害,不允许裁切报纸纸张。

五、报纸扫描

根据报纸幅面的大小(四开、对开等)选择相应规格的扫描仪或专业扫描仪进行扫描。为提升扫描效率,对开报纸采用超宽幅扫描仪进行扫描,可同时对4个版的对开报或者8个版的四开报进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。

六、扫描登记

填写历史报纸数字化转换过程交接登记表单,登记扫描的发行时间、发布期号,核对每份报纸的实际扫描版数与报纸整理时填写的报纸版数是否一致,不一致时应注明具体原因和处理方法。

七、图像处理

图像数据质量检查、纠偏、去污、裁边处理、图像存储、扫描件的命名、装订。

八、版面OCR识别提取实施方案

由于扫描后的报刊文件是基于位图的结构,尤其是老旧铅字印刷的报纸,其识别率极低。版面文章原则上进行全识别提取,项目关键点如下:

(1)遇到繁体中文应简化后提取;

(2)标题识别要分兼题、标题、副标题进行分类提取;

(3)文章遇到从右往左排版的应正确识别提取;

(4)提取过程中遇到明显错别字的应改错后提取;

(5)新闻图片单独提取且另存JPG文件便于录入;

(6)识别过程中按单个段落和单个文章进行识别,识别后记录进WPS文档进行管理,每期报纸进行一个文档管理。

广告:

相关内容

编辑:Admin 时间:2024/1/26 14:09:51 阅览:59   返回    
历史报纸数字化
OCR识别
扫描关注53BK报刊官网
扫描关注阅速公司微信