Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

之前我们对爬取内容的解析都是使用beautifulsoup,解析库，我们如果使用正则表达式就不需要用解析库了。
这里直接对实例进行讲解，爬取斗破苍穹小说
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

以上代码需要解释的是：findall函数内的内容

findall(),这是re库中的函数，用来匹配所有符合规律的内容，并以列表的形式返回结果
‘

(.?)

’ 就是待匹配的内容，这里使用了正则表达式的方法，返回的是括号内的所有字符，而p则代表着段落的开始和结束。
res.content.decode(‘utf-8’)是对爬取得内容的一种表达方式，进行了解码
我们可以看看其本身返回的结果，其文本内容正好在

之间，我们想要的就是其之间的内容，就可以’

**(.?)**

’ ，返回所有

之间的内容了。

每一章内容的链接大家就自己去找规律咯
另外关于python requests中content与text方法的区别，可参考以下链接：
https://blog.****.net/Erice_s/article/details/80115895

事实上我们使用text会出现乱码
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

print(res.content.decode(‘utf-8’))
#print(res.text)
这两者返回的结果是一样的，但是print(res.content.decode(‘utf-8’))，不会出现乱码的情况。

Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

相关推荐