BeautifulSoup
记录一下学习的内容,做个学习笔记,加深记忆。
导入BeautifulSoup: from bs4 import BeautifulSoup (一般用这个)
转成BeautifulSoup类: soup=BeautifulSoup(file,'html.parser',from_encoding='utf-8') //一般是这三个参数
file是导入的html对象
html.parser
是解析器,同等还有xml
from_encoding='utf-8'设定输出内容的编码
find :soup.find(‘标签’,attr={'属性':‘值’},text='值',limit=数字)
find_all:soup.find_all(‘标签’,attr={'属性':‘值’},text='值',limit=数字)
<class 'bs4.element.ResultSet'>:返回的find结果
<class 'bs4.BeautifulSoup'>:beautifulsoup类
Tag.name:返回标签名字
Tag.text:返回标签内的内容
Tag[属性键]:返回标签的属性内容
例如:<a href="https://i.cnblogs.com/EditPosts.aspx?opt=1" >新随笔</a>
标签名字:a
标签内容:新随笔
属性键:href
属性内容:https://i.cnblogs.com/EditPosts.aspx?opt=1