爬取网页是发现文本乱码问题

这两天开始学习爬虫，发现爬取网站时，爬下来的源码里面的文本内容乱码，奇怪的是有的网站没有乱码，有的网站乱码了，查找资料时发现，这是由于每个网站的编码方式差异造成的。

爬取网页是发现文本乱码问题

这个是爬取内涵段子时的源代码，当打印网页源代码时，发现文本信息乱码：

爬取网页是发现文本乱码问题

然后我又试了下csdn的网站：

爬取网页是发现文本乱码问题

发现文本信息并没有乱码

在网上查找资料知道，每个网站的编码方式不一样，查看每个网址的编码方式可以打开浏览器的管理者工具来查看，以chrome为例，打开F12管理者工具:

爬取网页是发现文本乱码问题

这样可以看到CSDN网站上的编码方式为UTF-8

爬取网页是发现文本乱码问题

内涵段子的编码方式为GBK，而我使用的pycharm的编码方式为UTF-8：

爬取网页是发现文本乱码问题

因此我爬取网页的时候，CSDN上的文本没有乱码，而内涵段子的网页文本发生了乱码

=========================================================================

解决方法：

因为我的编码器的编码格式为UTF-8，但是网页编码方式为GBK，因为我要先将源代码进行GBK解码，然后再进行UTF编码：

爬取网页是发现文本乱码问题

这样就大功告成了！！！