图片识别工具Tesseract初探

站长资源 2024/11/18 佚名

12 1538 12

富贵资源网 Design By www.hznty.com

一、框架介绍

Tesseract 是一款图片识别工具，可以抓取图片中的文字，可以支持多种语言(默认是英语），需要下载开源文件可以在github上下载，如果知识应用不想太多深究直接在google code里边搜索下载即可。

二、Tesseract内容

Doc:说明文档

Tessdata:存放各种文字库（chi_sim.traineddata:中文等）

Tessseract.exe 即可以启动文件开始调用Tesseract 可以通过cmd方式调用，先cd到对应的目录，然后输入 tesseract.exe 图片名导出文件名（如：tesseract.exe 1.jpg 1) 就可以把和tesseract同目录的 1.jpg文件识别结果存放在 1.txt文件中。当然如果需要支持中文，需要在tessdata中添加 chi_sim.traineddata 文件，

然后调用例子：tesseract.exe 1.jpg 1 -L chi_sim 制定是根据什么文字库进行识别。当然图片地址可以引用全路径、输出结果也可以全路径如果只是想把Tesseract做为一个工具做文字解析，并不追求太高成功率使用者，这样即可满足需要了，直接通过CMD调用exe进行执行。有需要玩的小伙伴可以直接下载附件 Tesseract_简单使用.rar文件

三、.Net项目高级使用

如果.Net项目需要使用 DLL方式引用进行研发，可以下载Tesseract_DLL引用包。

X86和X64是针对Tesseract关联引用DLL，根据程序所在系统位数进行自适应配置。

liblept168.dll 这个文件会在windows server 2003中发布IIS情况下无法加载错误信息: Failed to find library "liblept168.dll" for platform x86. 如果发布在更高版本系统中即可正常使用Tesseract.DLL即是要添加到对应的项目中的。以下是测试tesseract.dll 代码：

 using (var engine = new TesseractEngine(Server.MapPath(@"~/tessdata"), "eng", EngineMode.Default))
         {
           // have to load Pix via a bitmap since Pix doesn't support loading a stream.
           using (var image = new System.Drawing.Bitmap(imageFile.PostedFile.InputStream))
           {
             using (var pix = PixConverter.ToPix(image))
             {
               using (var page = engine.Process(pix))
               {
                 meanConfidenceLabel.InnerText = String.Format("{0:P}", page.GetMeanConfidence());
                 resultText.InnerText = page.GetText();
               }
             }
           }
         }

TesseractEngine：构造函数参数注意事项=》第一个是字库路径必须使用tessdata结尾，第二个如果需要使用chi_sim即中文

以上所述就是本文的全部内容了，希望大家能够喜欢。

图片识别,Tesseract

富贵资源网 Design By www.hznty.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

富贵资源网 Design By www.hznty.com

评论“图片识别工具Tesseract初探”

暂无评论...

图片识别工具Tesseract初探

ASP.NET动态添加用户控件的方法

ASP.NET MVC中将控制器分离到类库的实现

评论“图片识别工具Tesseract初探”

友情链接