用于网站解析的库/工具
问题描述:
我想开始将大量原始HTML页面解析为语义数据结构。用于网站解析的库/工具
只是对这种任务的各种可用工具的社区意见感兴趣,特别是各种有用的任何语言的库。
到目前为止,计划使用Hadoop来管理大量的处理,但对备选方案感到好奇。
答
首先,您需要下载页面源代码,然后创建一个DOM树。如果您在C#中编写代码,您可以使用以下工具创建您的DOM树。
1)http://htmlagilitypack.codeplex.com/
2)http://www.majestic12.co.uk/projects/html_parser.php
第一个是易于使用,但第二个是速度更快,内存友好,我建议你,如果你想创建一个强大的应用程序中使用第二个
那么你可以使用提取网页内容有用:
http://www.chrisspen.com/blog/how-to-extract-a-webpages-main-article-content.html
和许多其他文章你可以找到谷歌搜索来提取网页内容(提取网页主要内容)
希望它可以帮助
你什么意思做'解析HTML转换成语义数据结构? – bmargulies 2010-09-12 00:25:37
编写读取特定HTML页面的程序,并选取特定元素存储在某些本地数据结构中。 – Kevin 2010-09-12 19:04:34