标题: 【OCR教程】OCR系列教程一:汉王文豪基础篇 【转自文心阁】 [打印本页]

作者: 天涯凝望    时间: 2011-12-15 17:27
标题: 【OCR教程】OCR系列教程一:汉王文豪基础篇 【转自文心阁】
汉王文本王基础篇

①图象预处理
  图象处理有两个步骤:
  一是转换格式,汉王文本王不支持.gif格式,必须将.gif转换成.jpg/.tif/.bmp格式的图象
  二是调整图片大小,为了更好的识别效果,一般将图片放大到2倍,调整宽度的像素为1400
  直接转换格式一般都会有些许失真,如果想得到比较好的图源,那就用Photoshop,我将详细说下用PS转换格式:
  打开PS,打开需要转换格式的图片,全选,复制,然后新建一个文件(背景白色),黏贴。
  一般将图片放大2倍,可以取得更好的OCR效果,延续上面的操作:
  将图像宽度的像素调整为1400,然后储存为web和设备格式,保存为JPEG文件即可。
  如何批处理比较多的图片呢?请参看OCR系列教程二:图像批处理篇

②设置
  见图一,设置成“手写”与“公文”,其他的设置保持默认的就可以了

  [attach]50582[/attach]


③工程
  在菜单栏“文件(F)”里选择“打开工程(P)”可以打开工程。如果没有已经建好的工程,选择“打开图象(O)”新建工程。
  如何使用字库工程?请参照OCR系列教程三:字库工程应用篇 

     [attach]50583[/attach]

④识别
  汉王文本王比较有趣的地方就是它可以成长,可以学习以前识别过的字体。直接用方正的启体做的图,OCR效果不好,只好用最笨最笨的方法,从起点的图片上抠字。
  注意,每次重新打开字库工程都要先在菜单栏的“识别(R)”的下拉菜单中选择“手写--学习全体字(U)”。注意:每张图都要学习一次

  [attach]50584[/attach]

  学习字体之后,同样,可以在左列表,按“Shift”或者“Ctrl”选择多张图片,然后进行批量识别
  
  

⑤校对
  文稿中的每个字同图片的每个方框是存在一一对应关系的。光标移到文稿校对窗口进行校对时,会有两种状态,按Insert可以切换“替代替换”和“插入状态”,插入状态时,光标是竖着的,这个时候插入的汉字在原图中是没有相对应的汉字的。替换状态时,光标停留在被替换的字下面,替换汉字后,新替换的汉字和原图中的汉字,存在对应关系。
  如果不是为了学习字体的目的,可以不在汉王文本王里面校对,在里面校对的效率比较低,选择批识别过的图,然后菜单栏的“导出(O)”的下拉菜单中选择“输出为指定格式文件(S)...”,保存为TXT,然后在外部进行校对。

  [attach]50585[/attach]

  导出文本之后,会发现标点符号存在大量错误,我将详细说说标点符号的识别,请参看OCR系列教程四:标点符号识别篇




欢迎光临 (http://mail.zasq.com/~zazww/) Powered by Discuz! X3.2