图像处理

pytesseract识别验证码

哈呜 / 2017年2月28日

验证码破解是做爬虫经常要面对的问题。对于一般字符串或者算式的验证码，可以使用网页截图，然后OCR识别的方式来识别出验证码字符串来。网页截图可以使用selenium的save_screenshot()方法；用PIL图像处理库来截取验证码图片；用Tess […]

哈呜 / 2014年12月3日

php是通过imagick拓展来引用image magick这个图像处理库的。所以在安装时其实是安装两个软件包，一个是image magick，一个是imagick。 1 Windows安装 1. 下载 php_imagick 拓展的安装包。php_ima […]

哈呜 / 2014年12月2日

先容我啰嗦一下做这个实验的“历史”：这事儿大概可以追溯到13年10月，当时老陈拉我入伙做一个旅行游记的项目（很可惜我们没有坚持下去），不知道他怎么突发其想（fā shén jīng）打算用python来做后台，我说卧槽哥我不会python啊，他说没事，我 […]