如何分析Python中的动态网页内容?
问题描述:
我正在尝试将一个网页的内容加载到一个数组中,这是我之前在很多场合做过的。然而,这次网站的内容是动态的,当我加载时,我只需要获取通用网页,而不需要我需要的特定内容。如何分析Python中的动态网页内容?
用于提取页面和存储是如下的基本过程:
from lxml import html
import requests
import webbrowser
import time
import pickle
page = requests.get('http://www.website.com')
tree = html.fromstring(page.content)
所以,我将如何去加载了,比方说,一个拍卖网站,包括动态内容,如拍卖清单?
答
动态内容通常使用JavaScript和AJAX请求(或websockets)生成。有两种解决方案:
找出页面使用的api的位置和用法,并从python端调用它。这将要求您对页面的JavaScript进行反向工程。
使用网页浏览器框架在后台渲染网页并查询内容。这很可能会更难以设置。
这两种解决方案都需要很好的工作,毕竟,你应该真的考虑这是否值得。
在追求知识的过程中,总是值得努力。 –