Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

之前我们对爬取内容的解析都是使用beautifulsoup,解析库,我们如果使用正则表达式就不需要用解析库了。
这里直接对实例进行讲解,爬取斗破苍穹小说
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用

以上代码需要解释的是:findall函数内的内容

findall(),这是re库中的函数,用来匹配所有符合规律的内容,并以列表的形式返回结果

(.?)

’ 就是待匹配的内容,这里使用了正则表达式的方法,返回的是括号内的所有字符,而p则代表着段落的开始和结束。
res.content.decode(‘utf-8’)是对爬取得内容的一种表达方式,进行了解码
我们可以看看其本身返回的结果,其文本内容正好在

之间,我们想要的就是其之间的内容,就可以’

**(.?)**

’ ,返回所有

之间的内容了。
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用
每一章内容的链接大家就自己去找规律咯
另外关于python requests中content与text方法的区别,可参考以下链接:
https://blog.****.net/Erice_s/article/details/80115895

事实上我们使用text会出现乱码
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用
Python每日一记67>>>python爬取斗破苍穹小说与正则表达式应用
print(res.content.decode(‘utf-8’))
#print(res.text)
这两者返回的结果是一样的,但是print(res.content.decode(‘utf-8’)),不会出现乱码的情况。