我的第一个爬虫

#!/usr/bin/env python
# _*_ coding:utf8 _*_
import requests
import re
#设置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"

#用requests.get方法请求数据
response = requests.get(url)
#将页面的数据制定编码设置为gbk方式。
response.encoding = 'gbk'
#定义html用作接收response的返回结果(原网页的html代码)
html = response.text
#通过正则表达式对网页的html代码进行过滤。
a = re.findall(r'引用买大叔的怪年糕的回答:.*?月涌大江流',html,re.S)[0]
#数据清洗 将a中的<br />标签进行过滤 如果匹配的字符串中有元字符则需要添加\进行转义例如:() 则需要写成a.replace('\(\)','')
b = a.replace('<br />','')
#通过正则表达式进行再过滤。 \d表示以数字开头 该句为以数字开头以句号结尾
c = re.findall(r'\d.*?。',a)
#循环将其输出
for i in c:
print(i)


输出结果:

C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、风萧萧兮易水寒,壮士一去兮不复返。
2、一身转战三千里,一剑曾挡百万师。
3、我本楚狂人,凤歌笑孔丘。
4、醉里挑灯看剑,梦回吹角连营。
5、莫遣只轮回海窟,仍留一箭在天山。
6、君不见,高阳酒徒起草中,长揖山东隆准公。
7、独倚危楼,不信人间别有愁。
8、宁做真小人,不做伪君子。
9、东风吹醒英雄梦,笑对青山万重天。
10、马车幽灵影,潇洒一郎君。
11、一门七进士,父子三探花。
12、君子死知己,提剑出燕京。

Process finished with exit code 0


 我的第一个爬虫