从HTTPS获取最新的XML文件

问题描述：

我在下面的HTTPS URL处有一系列XML文件。我需要从URL中获取最新的XML文件。从HTTPS获取最新的XML文件

我试图修改这段代码，但不起作用。请帮忙。

from bs4 import BeautifulSoup 
import urllib.request 
import requests 

url = 'https://www.oasis.oati.com/cgi-bin/webplus.dll?script=/woa/woa-planned-outages-report.html&Provider=MISO' 
response = requests.get(url, verify=False) 
#html = urllib.request.urlopen(url,verify=False) 
soup = BeautifulSoup(response)

我想beautifulsoup不读响应对象。如果我使用urlopen函数，它会引发SSL错误。

答

BeautifulSoup不理解requests的Response情况下直接 - 抢.content并把它传递给‘汤’解析：

soup = BeautifulSoup(response.content, "html.parser") # you can also use "lxml" or "html5lib" instead of "html.parser"

BeautifulSoup理解‘类文件’对象，以及 - 这意味着一旦你找出你的SSL错误问题，你可以这样做：

data = urllib.request.urlopen(url) 
soup = BeautifulSoup(data, "html.parser")

答

我没有正确地框架我的问题摆在首位。但经过深入研究，我发现我真的试图提取所引用的url标记中的所有URL。随着美丽汤的更多背景，我会使用soup.find_all（'a'）。

从HTTPS获取最新的XML文件

相关推荐