一天一个爬虫练习,今天爬取 瑞文文摘网站

import requests	#自动爬去html页面,自动请求网络提交
from bs4 import BeautifulSoup	#解析HTML/XMl页面,提取数据或信息

#模拟浏览器访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = requests.get('http://www.rwtext.com/default.asp',headers=headers)
url.encoding = url.apparent_encoding #转换编码
text = url.text
soup = BeautifulSoup(text, 'html.parser')

print(soup.find('td').string)

#文章标题
for i in soup.select('tr td a',limit=60):
    #爬取tr标签-->td标签-->a标签的内容,只爬取前60条
    print(i.string)

运行结果:
一天一个爬虫练习,今天爬取 瑞文文摘网站