爬虫项目(一):有道翻译
爬虫的自我修养:
首先,什么是爬虫?
爬虫的实质其实就是:一个程序,用于沿着互联网节点爬行,不断访问不同的网站,以便获取它需要的资源。
入门学习爬虫,先从urllib开始学习。
urllib=url+lib ,其中URL(Universal Resource Locator)统一资源定位符,也就是我们平常见到的网址名。
常见的urllib有四个模块,分别是
urllib.request urllib.error urllib.parse urllib.robotparser
开始项目的编程:
首先先访问有道在线翻译官网(http://fanyi.youdao.com),输入你待翻译的内容:(比如:帅哥)
接着点击鼠标右键-审查元素 或者 点击键盘F12键,可以得到以下页面:
在Elements Console Sources……这一栏中点击Network,可以看到没有任何东西,
此时再次点击翻译按钮,会出现如下情况:
多了一行数据,点击进入,
在右侧Headers中可以查看到一堆数据,我们需要的数据有General中的Request URL,Form Data中的所有元素。其中我们可以发现Form Data为一个字典形式,而且i其实就是我们刚才输入的待翻译内容。
网页存储为json格式,需要使用json.loads()方法
附上源码图:
注意:
可能有的人在编写程序的时候把url=网页中Request URL时程序会返回error:50的问题,解决办法就是把Request URL链接中的?smartresult前的_o去掉,变成这个链接:
http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule ,问题就能迎刃而解了。