一天一个爬虫练习,今天爬取 瑞文文摘网站
import requests #自动爬去html页面,自动请求网络提交
from bs4 import BeautifulSoup #解析HTML/XMl页面,提取数据或信息
#模拟浏览器访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = requests.get('http://www.rwtext.com/default.asp',headers=headers)
url.encoding = url.apparent_encoding #转换编码
text = url.text
soup = BeautifulSoup(text, 'html.parser')
print(soup.find('td').string)
#文章标题
for i in soup.select('tr td a',limit=60):
#爬取tr标签-->td标签-->a标签的内容,只爬取前60条
print(i.string)
运行结果: