设为首页 收藏本站
查看: 3244|回复: 0

[经验分享] python图像处理:pytesseract和PIL

[复制链接]

尚未签到

发表于 2015-11-30 15:35:33 | 显示全部楼层 |阅读模式
  大概介绍下相关模块的概念
  Python-tesseract 是光学字符识别Tesseract OCR引擎的Python封装类。能够读取任何常规的图片文件(JPG, GIF ,PNG , TIFF等)并解码成可读的语言。在OCR处理期间不会创建任何临文件
  PIL (Python Imaging Library)是 Python 中最常用的图像处理库,目前版本为 1.1.7,我们可以 在这里 下载学习和查找资料。
  Image 类是 PIL 库中一个非常重要的类,通过这个类来创建实例可以有直接载入图像文件,读取处理过的图像和通过抓取的方法得到的图像这三种方法。
  python对图像的处理比较常见的是用pytesseract识别验证码,要安装pytesseract库,必须先安装其依赖的PIL及tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google的ocr识别引擎。下载链接:http://www.waitalone.cn/python-php-ocr.html   该链接文档描述了如何配置相关环境,以及识别验证码的python代码,总结起来就三步:安装PIL.exe;安装tesseract-ocr-setup.exe;安装pip install pytesseract
  1、识别图片简单的示例



1 import Image
2 import pytesseract
3
4 image=Image.open("1.jpg")    #打开验证码图片
5 image.load()        #加载一下图片,防止报错,此处可省略
6 image.show()     #调用show来展示图片,调试用,可省略

7 vcode=pytesseract.image_to_string(image)   
8 print vcode
  我按照该代码示例实际操作时报了2个错误:
  1、The _imaging C module is not installed
  是因为环境配置的问题,我的系统是win7 64bit,开始的时候只安装了PIL-1.1.7.win-amd64-py2.7.exe,把PIL-1.1.7.win32-py2.7.exe安装后,在python命令行输入:import _imaging,如果不报错则问题应该就解决了
  2、在 win 7 下使用 PIL 中的 Image 模块的 show() 函数时,报如下错:
DSC0000.jpg
  解决方法:将 PIL 安装目录下的 ImageShow.py 文件的第 99 行:(我的 python 安装在 C:\python 2.7, ImageShow.py  文件在:C:\Python27\Lib\site-packages\PIL\ImageShow.py)



return "start /wait %s && del /f %s" % (file, file)
  替换为:



return "start /wait %s && PING 127.0.0.1 -n 5 > NUL && del /f %s" % (file, file)  
  2、实际情况中,电脑本地并没有验证码图片,都是从网页中的验证码图片链接抓取的,实际示例:



1 import urllib2
2 import pytesseract
3 import Image
4 import time
5
6 fp=urllib2.urlopen('https://vcs.suning.com/vcs/imageCode.htm?uuid=1e68d06a-1134-410b-9606-f0eb4ae23bbe')  #示例网址的验证码图片地址
7 print fp
8
9 name="D:\\curl\\1.jpg"
10 f=open(name,'wb')
11 f.write(fp.read())      #读取验证码图片并保存为1.jpg
12 time.sleep(2)
13 f.close()
14
15 fl=open(name,'rb')
16 image=Image.open(fl)
17 image.show()
18 #image.load()
19 vcode=pytesseract.image_to_string(image)
20 print vcode
21 fl.close()
  以上本亲测可行,不过验证码识别率不是很高,简单的图片识别率还是可以的
  附录:Image模块用法介绍【转】
  1. 简介。
  图像处理是一门应用非常广的技术,而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴。PIL (Python Imaging Library)是 Python 中最常用的图像处理库,目前版本为 1.1.7,我们可以 在这里 下载学习和查找资料。
  Image 类是 PIL 库中一个非常重要的类,通过这个类来创建实例可以有直接载入图像文件,读取处理过的图像和通过抓取的方法得到的图像这三种方法。
  2. 使用。
  导入 Image 模块。然后通过 Image 类中的 open 方法即可载入一个图像文件。如果载入文件失败,则会引起一个 IOError ;若无返回错误,则 open 函数返回一个 Image 对象。现在,我们可以通过一些对象属性来检查文件内容,即:



1 >>> import Image
2  >>> im = Image.open("j.jpg")
3  >>> print im.format, im.size, im.mode
4 JPEG (440, 330) RGB
  这里有三个属性,我们逐一了解。
  format : 识别图像的源格式,如果该文件不是从文件中读取的,则被置为 None 值。
  size : 返回的一个元组,有两个元素,其值为象素意义上的宽和高。
  mode : RGB(true color image),此外还有,L(luminance),CMTK(pre-press image)。
  现在,我们可以使用一些在 Image 类中定义的方法来操作已读取的图像实例。比如,显示最新载入的图像:



1 >>>im.show()
2  >>>
  输出原图:
DSC0001.jpg
  3. 函数概貌。
  3.1    Reading and Writing Images : open( infilename ) , save( outfilename )
  3.2    Cutting and Pasting and Merging Images :
  crop() : 从图像中提取出某个矩形大小的图像。它接收一个四元素的元组作为参数,各元素为(left, upper, right, lower),坐标系统的原点(0, 0)是左上角。
  paste() :
  merge() :




DSC0002.gif
1 >>> box = (100, 100, 200, 200)
2  >>> region = im.crop(box)
3  >>> region.show()
4  >>> region = region.transpose(Image.ROTATE_180)
5  >>> region.show()
6  >>> im.paste(region, box)
7  >>> im.show()

  其效果图为:
DSC0003.jpg
  旋转一幅图片:





1 def roll(image, delta):
2     "Roll an image sideways"
3
4     xsize, ysize = image.size
5
6     delta = delta % xsize
7     if delta == 0: return image
8
9     part1 = image.crop((0, 0, delta, ysize))
10     part2 = image.crop((delta, 0, xsize, ysize))
11     image.paste(part2, (0, 0, xsize-delta, ysize))
12     image.paste(part1, (xsize-delta, 0, xsize, ysize))
13
14     return image

  3.3    几何变换。
  3.3.1    简单的几何变换。





1 >>>out = im.resize((128, 128))                     #
2  >>>out = im.rotate(45)                             #逆时针旋转 45 度角。
3  >>>out = im.transpose(Image.FLIP_LEFT_RIGHT)       #左右对换。
4  >>>out = im.transpose(Image.FLIP_TOP_BOTTOM)       #上下对换。
5  >>>out = im.transpose(Image.ROTATE_90)             #旋转 90 度角。
6  >>>out = im.transpose(Image.ROTATE_180)            #旋转 180 度角。
7 >>>out = im.transpose(Image.ROTATE_270)            #旋转 270 度角。

  各个调整之后的图像为:
  图片1: DSC0004.jpg
  图片2: DSC0005.jpg
  图片3: DSC0006.jpg
  图片4: DSC0007.jpg
  3.3.2    色彩空间变换。
  convert() : 该函数可以用来将图像转换为不同色彩模式。
  3.3.3    图像增强。
  Filters : 在 ImageFilter 模块中可以使用 filter 函数来使用模块中一系列预定义的增强滤镜。
  



1 >>> import ImageFilter
2 >>> imfilter = im.filter(ImageFilter.DETAIL)
3 >>> imfilter.show()
  3.4    序列图像。
  
  即我们常见到的动态图,最常见的后缀为 .gif ,另外还有 FLI / FLC 。PIL 库对这种动画格式图也提供了一些基本的支持。当我们打开这类图像文件时,PIL 自动载入图像的第一帧。我们可以使用 seek 和 tell 方法在各帧之间移动。
  





1 import Image
2 im.seek(1)        # skip to the second frame
3
4 try:
5     while 1:
6         im.seek( im.tell() + 1)
7         # do something to im
8 except EOFError:
9     pass

  
  3.5    更多关于图像文件的读取。
  最基本的方式:im = Image.open("filename")
  类文件读取:fp = open("filename", "rb"); im = Image.open(fp)
  字符串数据读取:import StringIO; im = Image.open(StringIO.StringIO(buffer))
  从归档文件读取:import TarIO; fp = TarIo.TarIO("Image.tar", "Image/test/lena.ppm"); im = Image.open(fp)
  基本的 PIL 目前就练习到这里。其他函数的功能可点击 这里 进一步阅读。
  扩展阅读:python如何下载网页图片
  http://blog.csdn.net/wudishine/article/details/11528791
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-145518-1-1.html 上篇帖子: python 核心编程第六章课后题自己做的答案 下篇帖子: Awesome Python Frameworks Libraries and Software
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表