是否有可能以编程方式获取生成的网页源代码?

问题描述:

正如标题所述,我想知道是否有方法来获取生成的页面的HTML代码。很明显,我可以用网页开发工具(浏览器内置或外部程序)检查页面并获取它,但我真的很想自动完成。也许使用Fiddler的API可能是可能的?是否有可能以编程方式获取生成的网页源代码?

谢谢!

+1

你的意思是从页面本身的JavaScript中获取页面的源代码,或者使用计算机上运行的脚本获取目标URL的源代码(如果是的话,你使用的是特定语言)? – 2013-03-09 20:41:30

+0

或者,您是否正在寻找Fiddler的API? – 2013-03-09 20:44:05

+1

http://phantomjs.org/有兴趣吗? – 2013-03-09 20:49:05

你也许可以用Python编写一个脚本,该脚本会带一个变量(URL),并将其插入一个可下载网页的命令(如wget)之后。

谷歌搜索,我发现这解析HTML文件:也许你可以wget的中的index.html,并使用其中的一个: How do you parse and process HTML/XML in PHP?

“源”没有得到通过JavaScript页面加载后改变,它是从生成的文档对象模型(DOM)生成的,它是被更改的源。正是这个DOM被转换为GUI,并且只要不重新加载页面,就会随着每次更改而被更改。

DOM不是一串HTML代码,它是页面在内存中的分层对象表示。浏览器在修改DOM时不会保留最新的平面文件表示,这就是为什么当您查看源代码时,您只能看到最初通过HTTP发送给浏览器的内容。

在开发人员工具(如Firebug)中,页/ DOM的节点对节点表示是最接近重新生成源代码(AFAIK)而无需自己构建一些新工具的。