一天一个爬虫练习，今天爬取瑞文文摘网站

import requests	#自动爬去html页面，自动请求网络提交
from bs4 import BeautifulSoup	#解析HTML/XMl页面，提取数据或信息

#模拟浏览器访问
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = requests.get('http://www.rwtext.com/default.asp',headers=headers)
url.encoding = url.apparent_encoding #转换编码
text = url.text
soup = BeautifulSoup(text, 'html.parser')

print(soup.find('td').string)

#文章标题
for i in soup.select('tr td a',limit=60):
    #爬取tr标签-->td标签-->a标签的内容，只爬取前60条
    print(i.string)

运行结果：
一天一个爬虫练习，今天爬取瑞文文摘网站

一天一个爬虫练习，今天爬取 瑞文文摘网站

相关推荐

一天一个爬虫练习，今天爬取瑞文文摘网站