蟒蛇HTML标签提取

问题描述：

它是如何将有可能做到以下几点：蟒蛇HTML标签提取

H1 H2 ... HN标签

并将所有的标题到一个文件正确的顺序：

开始与H1 比H2

，直到我们达到一个新的H1

这是一个严重不完整的问题。我无法做到头顶也不会尾巴。 – loevborg 2010-08-17 14:14:05

答

由于需要扫描整个网站，因此您可能需要查看pycurl以抓取要抓取的文件。尽管如此，请注意不要击中相当于DoS攻击的网站。

感谢你们俩。很好，很有趣！我怎样才能避免被视为潜在的威胁？ – MacPython 2010-08-17 14:50:22

只是限制你多么努力，而且经常碰到网站。当然，如果你控制场地，只需选择一个安静的时刻，然后锤击一段时间。没有任何硬性或快速的指导方针：网站可以应对/被认为是可接受的将会有很大的不同。 – mavnn 2010-08-17 15:00:29

答