如何使用爬虫爬取网页元素并存入文本文件中

代码：
#导包
import requests
from lxml import etree
#创建类
class spider():
#定义属性
def init(self):
self.url=“https://www.baidu.com/”
self.headers={“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36”}
#定义方法
def spider_page(self):
# 发送请求
response = requests.get(self.url,headers=self.headers)
# 获取网站编码格式
code = response.apparent_encoding
#print(code)
# 设置网站编码属性
response.encoding = ‘utf-8’
# 将页面信息转化为dom格式
self.doc = etree.HTML(response.text)
# 抓取元素并写入文本
def spider_save_element(self):
file = open(“spider123.txt”, “w”)
for i in range(1,7):
ele = self.doc.xpath(’//*[@id=“hotsearch-content-wrapper”]/li[’+str(i)+’]/a/span[2]/text()’)[0]#去除多余的字符
#打印输出
print(i,ele)
#去除字符间可能存在的空格
ss = ‘’.join(ele.split())
#写入文件
file.write(str(i) + " " + ss + “\n”)
# 关闭文件
file.close()
if name == ‘main’:
# 实例化类对象
spider1 = spider()
# 调用类方法
spider1.spider_page()
spider1.spider_save_element()
输出结果：
如何使用爬虫爬取网页元素并存入文本文件中

如何使用爬虫爬取网页元素并存入文本文件中

相关推荐