Linux下OCR识别
开源的OCR软件识别比较
Abbyy
官方网站: http://www.ocr4linux.com/
中文网站: http://www.abbyy.cn/
ABBYY FineReader Professional 是一款真正的专业OCR,它不仅支援多国语言,还支援彩色档识别、自动保留原稿插图和排版格式以及后台批次处理识别功能,使用者再也不用在扫描软件、 OCR、WORD、EXCEL之间换来换去了,处理档会变的就象打开已经存档的档一般便捷。
ABBYY FineReader Professional 是OCR辨识软件,它有着标准的Windows介面,能够直接在MS Word、MS Excel、WordPerfect及Word Pro中扫描和读取档、信件或各类表格,并且能存成RTF、TXT、DOC、CSV、XLS或HTML等格式。它能保持表格与图片中原始的多栏页面设计。 FineReader Professional在辨识方面支持ADF(自动进纸)扫描器,批次处理,拼音检查,强大的表格工具,多语言档,背景运算和学习新的字体。它也完全支持TWAIN扫描器。
在用OCR进行文本扫描时,ABBYY FineReader软体为您提供了有效的文字识别系统,可以高速、简便地把扫描图像转变成文字档案格式。内置强大的Abbyy FineReader OCR文字识别引擎,可以将丰富的文字精确的转换成可编辑的Word电子文档。使得文档电子化操作简单到只须轻轻一按!ABBYY FineReader Sprint – FineReader 的拼写校对功能,令文字识别功能更容易使用。
Tesseract
知名的开源OCR引擎Tesseract 3.0版本日前发布,对中国用户来说,一个好消息是新版本支持中文。
官方网站: http://code.google.com/p/tesseract-ocr/
Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是 Apache 2.0。
该项目目前支持Windows、Linux和Mac OS等主流平台。但作为一个引擎,它只提供核心功能,没有界面。
Tesseract 用法
$ tesseract image.tif output [-l langid] $ tesseract DSC00022.tiff out22 -l chi_sim //识别中文 chi_sim ,英文 eng
tesseract支持的语言种类
$ cd /usr/share/tesseract-ocr/tessdata/ $ ls
如果觉得Tesseract识别率不可,可以参考进行识别训练: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract2
例子
Tesseract只识别tif,所以保证扫描好的图片为tif格式。如你可用gthumb,另存为.tiff格式就OK。或者用命令行转:
$ convert page-001.jpg ppm:- | ppm2tiff page-001.tif // 先转成tif格式 $ tesseract page-001.tif page-001 //输出文件只要有文件名就行,输出默认txt文件。 Tesseract Open Source OCR Engine