如何分析Python中的动态网页内容?

如何分析Python中的动态网页内容?

问题描述:

我正在尝试将一个网页的内容加载到一个数组中,这是我之前在很多场合做过的。然而,这次网站的内容是动态的,当我加载时,我只需要获取通用网页,而不需要我需要的特定内容。如何分析Python中的动态网页内容?

用于提取页面和存储是如下的基本过程:

from lxml import html 
import requests 
import webbrowser 
import time 
import pickle 

page = requests.get('http://www.website.com') 

tree = html.fromstring(page.content) 

所以,我将如何去加载了,比方说,一个拍卖网站,包括动态内容,如拍卖清单?

动态内容通常使用JavaScript和AJAX请求(或websockets)生成。有两种解决方案:

  1. 找出页面使用的api的位置和用法,并从python端调用它。这将要求您对页面的JavaScript进行反向工程。

  2. 使用网页浏览器框架在后台渲染网页并查询内容。这很可能会更难以设置。

这两种解决方案都需要很好的工作,毕竟,你应该真的考虑这是否值得。

+0

在追求知识的过程中,总是值得努力。 –