是否有可能以编程方式获取生成的网页源代码？

问题描述：

正如标题所述，我想知道是否有方法来获取生成的页面的HTML代码。很明显，我可以用网页开发工具（浏览器内置或外部程序）检查页面并获取它，但我真的很想自动完成。也许使用Fiddler的API可能是可能的？是否有可能以编程方式获取生成的网页源代码？

谢谢！

你的意思是从页面本身的JavaScript中获取页面的源代码，或者使用计算机上运行的脚本获取目标URL的源代码（如果是的话，你使用的是特定语言）？ – 2013-03-09 20:41:30

或者，您是否正在寻找Fiddler的API？ – 2013-03-09 20:44:05

http://phantomjs.org/有兴趣吗？ – 2013-03-09 20:49:05

答

你也许可以用Python编写一个脚本，该脚本会带一个变量（URL），并将其插入一个可下载网页的命令（如wget）之后。

谷歌搜索，我发现这解析HTML文件：也许你可以wget的中的index.html，并使用其中的一个： How do you parse and process HTML/XML in PHP?

答

“源”没有得到通过JavaScript页面加载后改变，它是从生成的文档对象模型（DOM）生成的，它是被更改的源。正是这个DOM被转换为GUI，并且只要不重新加载页面，就会随着每次更改而被更改。

DOM不是一串HTML代码，它是页面在内存中的分层对象表示。浏览器在修改DOM时不会保留最新的平面文件表示，这就是为什么当您查看源代码时，您只能看到最初通过HTTP发送给浏览器的内容。

在开发人员工具（如Firebug）中，页/ DOM的节点对节点表示是最接近重新生成源代码（AFAIK）而无需自己构建一些新工具的。

是否有可能以编程方式获取生成的网页源代码？

相关推荐