提取数据网页

问题描述：

Folks，我试图从C＃中的网页中提取数据..目前我使用WebReponse的流，我解析它为一个大字符串。这是漫长而痛苦的。有人知道更好的方式从网页提取数据？我说WINHTTP，但不是为C＃..提取数据网页

答

如果网页是有效的XHTML，你可以阅读到一个XPathDocument和快速，轻松地直接XPath用自己的方式将数据你要。如果它不是有效的XHTML，我确信有一些HTML分析器可以使用。

找到了一个类似的问题，并提供一个有用的答案。 Looking for C# HTML parser

答

若要从网页上下载的数据更容易使用WebClient：

string data; 
using (var client = new WebClient()) 
{ 
    data = client.DownloadString("http://www.google.com"); 
}

对于解析下载的数据，只要它是HTML，你可以使用优秀的Html Agility Pack库。

而且这里有一个完整的例子提取特定页面中的所有链接：

class Program 
{ 
    static void Main(string[] args) 
    { 
     using (var client = new WebClient()) 
     { 
      string data = client.DownloadString("http://www.google.com"); 
      HtmlDocument doc = new HtmlDocument(); 
      doc.LoadHtml(data); 

      var nodes = doc.DocumentNode.SelectNodes("//a[@href]"); 
      foreach(HtmlNode link in nodes) 
      { 
       HtmlAttribute att = link.Attributes["href"]; 
       Console.WriteLine(att.Value); 
      } 
     } 
    } 
}

请你多解释一下 – 2013-10-30 20:57:32

相关推荐