利用代理IP爬取京东网站手机数据
1.代理简介
在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性。
代理(英语:Proxy),也称网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接。一些网关、路由器等网络设备具备网络代理功能。一般认为代理服务有利于保障网络终端的隐私或安全,防止攻击。
国内常用的代理网站有以下2个:
2.https://www.kuaidaili.com/free/inha/
2.爬取代理IP和京东数据
3.报错分析
在爬取的过程中会报如下错误:分析原因主要是代理IP不稳定爬取过程中会中断,多试几次就OK了
URLError: <urlopen error EOF occurred in violation of protocol (_ssl.c:748)>
URLError: <urlopen error [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。>
4.爬取结果