爬虫项目(一)：有道翻译

爬虫的自我修养:

首先，什么是爬虫？

爬虫的实质其实就是：一个程序，用于沿着互联网节点爬行，不断访问不同的网站，以便获取它需要的资源。

入门学习爬虫，先从urllib开始学习。

urllib=url+lib ，其中URL（Universal Resource Locator）统一资源定位符，也就是我们平常见到的网址名。

常见的urllib有四个模块，分别是

urllib.request urllib.error urllib.parse urllib.robotparser

首先先访问有道在线翻译官网(http://fanyi.youdao.com)，输入你待翻译的内容:（比如:帅哥）

爬虫项目(一)：有道翻译

接着点击鼠标右键-审查元素或者点击键盘F12键，可以得到以下页面：

爬虫项目(一)：有道翻译

在Elements Console Sources……这一栏中点击Network，可以看到没有任何东西，

爬虫项目(一)：有道翻译

此时再次点击翻译按钮，会出现如下情况：

爬虫项目(一)：有道翻译

多了一行数据，点击进入，

爬虫项目(一)：有道翻译

在右侧Headers中可以查看到一堆数据，我们需要的数据有General中的Request URL，Form Data中的所有元素。其中我们可以发现Form Data为一个字典形式，而且i其实就是我们刚才输入的待翻译内容。

爬虫项目(一)：有道翻译

网页存储为json格式，需要使用json.loads()方法

附上源码图:

爬虫项目(一)：有道翻译

注意:

可能有的人在编写程序的时候把url=网页中Request URL时程序会返回error:50的问题，解决办法就是把Request URL链接中的?smartresult前的_o去掉，变成这个链接：

http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule ，问题就能迎刃而解了。