Python -BS4详细介绍
Python -BS4详细介绍
Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.
在应用过程中有很多模块是非常方便的,先尝试使用BeautifulSoup和Urllib进行网页的处理,仅供学习. 首先列举所需要导入的模块: from bs4 import BeautifulSoup # 处理获取的网页信息 import bs4 # 用于判读各类类型 import os #系统模块,详细信息整理于下一章节 import re # 正则表达式,其实用不到 import time # 时间模块,用于设置超时处理等 from urllib import request # 用于获取网页信息 相关操作: url = 'HTTP://XXXX' # 定义网页地址 respons = request.urlopen(url,data=None,timeout=2) # 打开地址 data = respons.read().decode('utf-8') # 读取网页信息 soup = BeautifulSoup(data, "html5lib") # 用BeautifulSoup 解析 href = soup.find_all('a',target = "XXXX") # BS4最重要的函数,获取相关节点儿,详细信息自行学习 ### 剩下的就自己处理就行了. 于2018-6-5 补充如下:
关于解析器引用官方文档截图: 对象:
|
1. tag
tag中最重要的属性: name和attributes
tag.name 和tag["XXX"]
2. tag.string 和 tag.strings 获取字符内容
3. find_all( name , attrs , recursive , text , **kwargs )
name:tag的name
attrs : 属性