如何从c＃获取网站标题＃

问题描述：

我正在重温我的som旧代码，并且偶然发现了一种基于网址获取网站标题的方法。这不是真的，你会称之为稳定的方法，因为它往往不能产生结果，有时甚至会产生不正确的结果。此外，有时它不能显示标题中的一些字符，因为它们是可选编码。如何从c＃获取网站标题＃

有没有人对这个旧版本有改进建议？

public static string SuggestTitle(string url, int timeout) 
{ 
    WebResponse response = null; 
    string line = string.Empty; 

    try 
    { 
     WebRequest request = WebRequest.Create(url); 
     request.Timeout = timeout; 

     response = request.GetResponse(); 
     Stream streamReceive = response.GetResponseStream(); 
     Encoding encoding = System.Text.Encoding.GetEncoding("utf-8"); 
     StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding); 

     while(streamRead.EndOfStream != true) 
     { 
      line = streamRead.ReadLine(); 
      if (line.Contains("<title>")) 
      { 
       line = line.Split(new char[] { '<', '>' })[2]; 
       break; 
      } 
     } 
    } 
    catch (Exception) { } 
    finally 
    { 
     if (response != null) 
     { 
      response.Close(); 
     } 
    } 

    return line; 
}

最后要注意的 - 我想代码的运行速度为好，因为它阻止，直到页面被取出，所以如果我能得到的只有网站标题，而不是整个页面，它会很棒。

答

更简单的方法来获取内容：

WebClient x = new WebClient(); 
string source = x.DownloadString("http://www.singingeels.com/");

一个更简单，更可靠的方式来获得标题：

string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>", RegexOptions.IgnoreCase).Groups["Title"].Value;

答

为了做到这一点，你需要做一些事情。

使您的应用线程化，以便您可以在当时处理多个请求并最大化正在制作的HTTP请求的数量。
Durring异步请求，只下载你想拉回来的数据量，你也许可以做分析的数据，它回来找
可能需要使用正则表达式来拉出标题名称

我之前用SEO机器人完成了这个任务，并且我一次能够处理将近10,000个请求。您只需确保每个Web请求都可以自包含在一个线程中。

你肯定*不*想给每个请求其自己的线程如果你想一次处理10,000个请求！（所涉及的堆栈会让你的内存像疯了一样。）使用异步API将并行化操作*不需要*为每个请求花费一个线程。 – 2008-11-30 20:34:00

这是一个有争议的问题，因为我只需要一次执行一个请求。速度的需要是因为用户正在等待答复。 – 2008-11-30 20:51:28

如何从c＃获取网站标题＃

相关推荐