设为首页 收藏本站
查看: 1709|回复: 0

[经验分享] Mac下ruby+RTesseract获取图片验证码

[复制链接]

尚未签到

发表于 2016-5-18 10:43:29 | 显示全部楼层 |阅读模式
    Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。
  该项目目前支持Windows、Linux和Mac OS等主流平台。但作为一个引擎,它只提供核心功能,没有界面。
  RTesseract是Tesseract的ruby封装调用,其内部原理是先用mini_magick将图片转换为tif格式,再执行命令行调用Tesseract软件返回最终解析的字符串。
  
  一、安装ImageMagick

sudo brew install imagemagick
  二、安装Leptionica
  

下载地址:http://www.leptonica.org/download.html
tar zxvf leptonica-1.69.tar.gz
cd leptonica-1.69
./configure  
make  
sudo make install   
  
  三、安装tesseract-ocr
  


下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-3.01.tar.gz
tar zxvf tesseract-3.01.tar.gz
cd tesseract-3.01
./autogen.sh  
./configure  
make  
sudo make install
  四、安装MiniMagick
  
  

gem install mini_magick
  五、调用

# -*- encoding: utf-8 -*-
require 'rtesseract'
require 'mini_magick'
def parse_price(price_url)
img = MiniMagick::Image.open(price_url)
img.resize '200x100'   # 放大
img.colorspace("GRAY") # 灰度化  
img.monochrome         # 去色
str = RTesseract.new(img.path).to_s # 识别
File.unlink(img.path)  # 删除临时文件
if str.nil?
puts price_url
else
price = str.strip.sub(/Y/,'').to_f
end
end
调用:
parse_price('http://jprice.360buyimg.com/price/gp723049-1-1-1.png')
# => 169999.0

  六、遇到的困难
  
  1、识别的时候可能报异常:

RTesseract::ConversionError: RTesseract::ConversionError
  追查到RTesseract插件内部发现里面抛出异常的位置,作者没把实际错误返回回来真可悲!

#Convert image to string
def convert
generate_uid
tmp_file  = Pathname.new(Dir::tmpdir).join("#{@uid}_#{@source.basename}")
tmp_image = image_to_tiff
#这里生成了命令行命令,格式类似:tesseract xxx.tif xxx.jpg
`#{@command} "#{tmp_image}" "#{tmp_file.to_s}" #{lang} #{psm} #{config_file} #{clear_console_output}`
@value = File.read("#{tmp_file.to_s}.txt").to_s
@uid = nil
remove_file([tmp_image,"#{tmp_file.to_s}.txt"])
#这里截获了所有异常!
rescue
raise RTesseract::ConversionError
end

  2、结果不准
  可以适当调整图片的尺寸和灰度值

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-218626-1-1.html 上篇帖子: 移动硬盘安装黑苹果(Mac:SnowLeopard原版)+Xcode4.2 下篇帖子: mac下配置php环境及问题解决
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表