爬取网页是发现文本乱码问题

这两天开始学习爬虫,发现爬取网站时,爬下来的源码里面的文本内容乱码,奇怪的是有的网站没有乱码,有的网站乱码了,查找资料时发现,这是由于每个网站的编码方式差异造成的。

 

爬取网页是发现文本乱码问题

这个是爬取内涵段子时的源代码,当打印网页源代码时,发现文本信息乱码:

爬取网页是发现文本乱码问题

然后我又试了下csdn的网站:

爬取网页是发现文本乱码问题

发现文本信息并没有乱码

在网上查找资料知道,每个网站的编码方式不一样,查看每个网址的编码方式可以打开浏览器的管理者工具来查看,以chrome为例,打开F12管理者工具:

爬取网页是发现文本乱码问题

这样可以看到CSDN网站上的编码方式为UTF-8

爬取网页是发现文本乱码问题

内涵段子的编码方式为GBK,而我使用的pycharm的编码方式为UTF-8:

爬取网页是发现文本乱码问题

因此我爬取网页的时候,CSDN上的文本没有乱码,而内涵段子的网页文本发生了乱码

=========================================================================

解决方法:

因为我的编码器的编码格式为UTF-8,但是网页编码方式为GBK,因为我要先将源代码进行GBK解码,然后再进行UTF编码:

爬取网页是发现文本乱码问题

这样就大功告成了!!!