爬虫项目(一):有道翻译

爬虫的自我修养:

首先,什么是爬虫?

    爬虫的实质其实就是:一个程序,用于沿着互联网节点爬行,不断访问不同的网站,以便获取它需要的资源。


入门学习爬虫,先从urllib开始学习。

urllib=url+lib ,其中URL(Universal Resource Locator)统一资源定位符,也就是我们平常见到的网址名。

常见的urllib有四个模块,分别是

urllib.request    urllib.error    urllib.parse    urllib.robotparser


开始项目的编程:

首先先访问有道在线翻译官网(http://fanyi.youdao.com),输入你待翻译的内容:(比如:帅哥)

爬虫项目(一):有道翻译


接着点击鼠标右键-审查元素 或者 点击键盘F12键,可以得到以下页面:

爬虫项目(一):有道翻译

在Elements Console Sources……这一栏中点击Network,可以看到没有任何东西,

爬虫项目(一):有道翻译

此时再次点击翻译按钮,会出现如下情况:

爬虫项目(一):有道翻译

多了一行数据,点击进入,

爬虫项目(一):有道翻译

在右侧Headers中可以查看到一堆数据,我们需要的数据有General中的Request URL,Form Data中的所有元素。其中我们可以发现Form Data为一个字典形式,而且i其实就是我们刚才输入的待翻译内容。

爬虫项目(一):有道翻译

网页存储为json格式,需要使用json.loads()方法



附上源码图:

爬虫项目(一):有道翻译

注意:

    可能有的人在编写程序的时候把url=网页中Request URL时程序会返回error:50的问题,解决办法就是把Request URL链接中的?smartresult前的_o去掉,变成这个链接:

http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule ,问题就能迎刃而解了。