爬虫--验证码,代理IP池

爬虫--验证码,代理IP池 

思路一:Cookie 登录(最简单最方便)

cooke 都会保持较长的一段时间,避免因用户频繁输入账号和密码造成的不便.我们可以利用这个特性,

当我们登录成功一次之后,可以将 cooke 信息保存到本地, 放入headers中,下次登录时直接使用 cooke 登录

思路二:传统图形验证码

传统的验证码即传统的输入型验证码, 可以是数字、字母和汉字这类验证码不涉及验证码含义的分析,                                    仅仅识别验证码的内容,识别相对简単,进行验证码识别需要使用到 tesseract

如何识别验证:tesseract或说 OCR

思路三:滑动验证码

滑动验证码是最近比较流行的验证方式,是一种基于行为的验证方式
通用的办法是使用 selenium 进行处理
1、在浏览器上模拟以鼠标拖动的操作
2、计算图片中缺口的偏移量 (用到了 PIL 库)
3、模拟人类拖动鼠标的轨迹 

思路四:打码平台

人工打码采用自动识别+人工识别的组合方式
主要人工打码的平台有打码免、QQ 超人打码、超级鹰打码等

思路五:点触验证码的识别

点击图片识别,也用到打吗平台

安装:

爬虫--验证码,代理IP池

配置环境变量:新建,TESSDATA_PREFIX=

爬虫--验证码,代理IP池

配置环境变量:path中新建

爬虫--验证码,代理IP池

爬虫--验证码,代理IP池

cmd:

进入虚拟环境workon  env1

pip inssatll pytesseract