爬虫--验证码,代理IP池
思路一:Cookie 登录(最简单最方便)
cooke 都会保持较长的一段时间,避免因用户频繁输入账号和密码造成的不便.我们可以利用这个特性,
当我们登录成功一次之后,可以将 cooke 信息保存到本地, 放入headers中,下次登录时直接使用 cooke 登录
思路二:传统图形验证码
传统的验证码即传统的输入型验证码, 可以是数字、字母和汉字这类验证码不涉及验证码含义的分析, 仅仅识别验证码的内容,识别相对简単,进行验证码识别需要使用到 tesseract
如何识别验证:tesseract或说 OCR
思路三:滑动验证码
滑动验证码是最近比较流行的验证方式,是一种基于行为的验证方式
通用的办法是使用 selenium 进行处理
1、在浏览器上模拟以鼠标拖动的操作
2、计算图片中缺口的偏移量 (用到了 PIL 库)
3、模拟人类拖动鼠标的轨迹思路四:打码平台
人工打码采用自动识别+人工识别的组合方式
主要人工打码的平台有打码免、QQ 超人打码、超级鹰打码等思路五:点触验证码的识别
点击图片识别,也用到打吗平台
安装:
配置环境变量:新建,TESSDATA_PREFIX=
配置环境变量:path中新建
cmd:
进入虚拟环境workon env1
pip inssatll pytesseract