pytesseract识别验证码

pytesseract识别验证码

验证码破解是做爬虫经常要面对的问题。对于一般字符串或者算式的验证码,可以使用网页截图,然后OCR识别的方式来识别出验证码字符串来。

  1. 网页截图可以使用selenium的save_screenshot()方法;
  2. 用PIL图像处理库来截取验证码图片;
  3. Tesseract来做OCR识别

要安装的python第三方库有:selenium、pillow(PIL)、pytesseract

要安装的软件有:selenium用的webdriver、pytesseract用的Tesseract

1. 网页截图并截取验证码

2. 对验证码图片进行OCR识别(包括预处理)

Tesseract的文档说它在进行OCR之前会先做一次二值化预处理,但我感觉好像并非如此,以为如果我在上面的代码中不自己先做一遍二值化,识别出来的结果明显有差。=。=#

另外,tesseract可以通过训练来增强识别水平,但我试了大半天没成功(文档太少了。。。)遂放弃。

 

2 thoughts on “pytesseract识别验证码

发表评论

电子邮件地址不会被公开。 必填项已用*标注