图像处理

pytesseract识别验证码

验证码破解是做爬虫经常要面对的问题。对于一般字符串或者算式的验证码,可以使用网页截图,然后OCR识别的方式来识别出验证码字符串来。 网页截图可以使用selenium的save_screenshot()方法; 用PIL图像处理库来截取验证码图片; 用Tesseract来做OCR识别 要安装的python第三方库有:selenium、pillow(PIL)、pytesseract 要安装的软件有:selenium用的webdriver、pytesseract用的Tesseract 1. 网页截图并截取验证码 import selenium from PIL import Image … fileScreenshot = "截屏文件保存路径" fileCaptcha = […]

为php安装imagick拓展与image magick图像处理库

php是通过imagick拓展来引用image magick这个图像处理库的。所以在安装时其实是安装两个软件包,一个是image magick,一个是imagick。 1 Windows安装 1. 下载 php_imagick 拓展的安装包。php_imagick-3.2.0b2-5.5-nts-vc11-x64.zip 2. 将该压缩包解压,得到这些dll文件。 将php_imagick.dll复制到php安装目录的ext目录下。 然后修改php_xx.ini,在那些拓展下面加一句extension=php_imagick.dll。 剩下的的CORE_XX.dll则拷贝到windows/system32目录下。 3. 查看phpinfo(), 应该能看到imagick拓展了。 但最后两项ImageMagick number of

缩放+锐化:做多一步,得到效果更好的缩略图

先容我啰嗦一下做这个实验的“历史”: 这事儿大概可以追溯到13年10月,当时老陈拉我入伙做一个旅行游记的项目(很可惜我们没有坚持下去),不知道他怎么突发其想(fā shén jīng)打算用python来做后台,我说卧槽哥我不会python啊,他说没事,我也不会。行呗,那就学呗(这就是为什么本文代码会用python来实现)。 然后有一天,老陈突然发了一个“广告帖”给我看,大体内容是关于花瓣网的,其中鼓吹了花瓣网的图片处理技术多么多么牛逼。老陈说他还真试了一下,发现几大游记网站(马蜂窝、蝉游记等)的照片上传后的缩略图质量确实不如上传到花瓣网的,要不咱研究研究?研究成了咱也能吹吹咱网站的图片处理技术。(这就是本文的主题:得到效果更好的缩略图) 1. 几个网站的效果对比 通常,相机(手机)的照片大小都是几个mb的。对于图片类网站(包括旅行游记类网站),不可能在展示时候直接就给你展示原图,那刷图得慢死你。一般的操作是在用户上传照片时就将照片压缩为两个等级的大小,我们暂且称为大缩略图跟小缩略图(服务器空间大的离谱的话你还可以保存原图)。本文主要比较的是大缩略图。  照片原图 面包旅行 40kb 640×424 蝉游记 35kb 600×300 (呐别问我为啥图被裁了,我怎么知道) 花瓣网 133kb 580×384 ACDSee

Scroll to Top