我的第一个爬虫

#!/usr/bin/env python
# _*_ coding:utf8 _*_
import requests
import re
#设置url地址
url = "https://zhidao.baidu.com/question/1929141799920161187.html"

#用requests.get方法请求数据
response = requests.get(url)
#将页面的数据制定编码设置为gbk方式。
response.encoding = 'gbk'
#定义html用作接收response的返回结果（原网页的html代码）
html = response.text
#通过正则表达式对网页的html代码进行过滤。
a = re.findall(r'引用买大叔的怪年糕的回答：.*?月涌大江流',html,re.S)[0]
#数据清洗 将a中的<br />标签进行过滤   如果匹配的字符串中有元字符则需要添加\进行转义例如：（） 则需要写成a.replace('\(\)','')
b = a.replace('<br />','')
#通过正则表达式进行再过滤。  \d表示以数字开头  该句为以数字开头以句号结尾
c = re.findall(r'\d.*?。',a)
#循环将其输出
for i in c:
print(i)


输出结果：

C:\Users\Administrator\AppData\Local\Programs\Python\Python36\python.exe H:/python/qingqiou.py
1、风萧萧兮易水寒，壮士一去兮不复返。
2、一身转战三千里，一剑曾挡百万师。
3、我本楚狂人，凤歌笑孔丘。
4、醉里挑灯看剑，梦回吹角连营。
5、莫遣只轮回海窟，仍留一箭在天山。
6、君不见，高阳酒徒起草中，长揖山东隆准公。
7、独倚危楼，不信人间别有愁。
8、宁做真小人，不做伪君子。
9、东风吹醒英雄梦，笑对青山万重天。
10、马车幽灵影，潇洒一郎君。
11、一门七进士，父子三探花。
12、君子死知己，提剑出燕京。

Process finished with exit code 0
我的第一个爬虫
相关推荐