如何从c#获取网站标题#

问题描述:

我正在重温我的som旧代码,并且偶然发现了一种基于网址获取网站标题的方法。这不是真的,你会称之为稳定的方法,因为它往往不能产生结果,有时甚至会产生不正确的结果。此外,有时它不能显示标题中的一些字符,因为它们是可选编码。如何从c#获取网站标题#

有没有人对这个旧版本有改进建议?

public static string SuggestTitle(string url, int timeout) 
{ 
    WebResponse response = null; 
    string line = string.Empty; 

    try 
    { 
     WebRequest request = WebRequest.Create(url); 
     request.Timeout = timeout; 

     response = request.GetResponse(); 
     Stream streamReceive = response.GetResponseStream(); 
     Encoding encoding = System.Text.Encoding.GetEncoding("utf-8"); 
     StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding); 

     while(streamRead.EndOfStream != true) 
     { 
      line = streamRead.ReadLine(); 
      if (line.Contains("<title>")) 
      { 
       line = line.Split(new char[] { '<', '>' })[2]; 
       break; 
      } 
     } 
    } 
    catch (Exception) { } 
    finally 
    { 
     if (response != null) 
     { 
      response.Close(); 
     } 
    } 

    return line; 
} 

最后要注意的 - 我想代码的运行速度为好,因为它阻止,直到页面被取出,所以如果我能得到的只有网站标题,而不是整个页面,它会很棒。

更简单的方法来获取内容:

WebClient x = new WebClient(); 
string source = x.DownloadString("http://www.singingeels.com/"); 

一个更简单,更可靠的方式来获得标题:

string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>", RegexOptions.IgnoreCase).Groups["Title"].Value; 

为了做到这一点,你需要做一些事情。

  • 使您的应用线程化,以便您可以在当时处理多个请求并最大化正在制作的HTTP请求的数量。
  • Durring异步请求,只下载你想拉回来的数据量,你也许可以做分析的数据,它回来找
  • 可能需要使用正则表达式来拉出标题名称

我之前用SEO机器人完成了这个任务,并且我一次能够处理将近10,000个请求。您只需确保每个Web请求都可以自包含在一个线程中。

+0

你肯定*不*想给每个请求其自己的线程如果你想一次处理10,000个请求! (所涉及的堆栈会让你的内存像疯了一样。)使用异步API将并行化操作*不需要*为每个请求花费一个线程。 – 2008-11-30 20:34:00

+0

这是一个有争议的问题,因为我只需要一次执行一个请求。速度的需要是因为用户正在等待答复。 – 2008-11-30 20:51:28