如何从c#获取网站标题#
问题描述:
我正在重温我的som旧代码,并且偶然发现了一种基于网址获取网站标题的方法。这不是真的,你会称之为稳定的方法,因为它往往不能产生结果,有时甚至会产生不正确的结果。此外,有时它不能显示标题中的一些字符,因为它们是可选编码。如何从c#获取网站标题#
有没有人对这个旧版本有改进建议?
public static string SuggestTitle(string url, int timeout)
{
WebResponse response = null;
string line = string.Empty;
try
{
WebRequest request = WebRequest.Create(url);
request.Timeout = timeout;
response = request.GetResponse();
Stream streamReceive = response.GetResponseStream();
Encoding encoding = System.Text.Encoding.GetEncoding("utf-8");
StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding);
while(streamRead.EndOfStream != true)
{
line = streamRead.ReadLine();
if (line.Contains("<title>"))
{
line = line.Split(new char[] { '<', '>' })[2];
break;
}
}
}
catch (Exception) { }
finally
{
if (response != null)
{
response.Close();
}
}
return line;
}
最后要注意的 - 我想代码的运行速度为好,因为它阻止,直到页面被取出,所以如果我能得到的只有网站标题,而不是整个页面,它会很棒。
答
更简单的方法来获取内容:
WebClient x = new WebClient();
string source = x.DownloadString("http://www.singingeels.com/");
一个更简单,更可靠的方式来获得标题:
string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>", RegexOptions.IgnoreCase).Groups["Title"].Value;
答
为了做到这一点,你需要做一些事情。
- 使您的应用线程化,以便您可以在当时处理多个请求并最大化正在制作的HTTP请求的数量。
- Durring异步请求,只下载你想拉回来的数据量,你也许可以做分析的数据,它回来找
- 可能需要使用正则表达式来拉出标题名称
我之前用SEO机器人完成了这个任务,并且我一次能够处理将近10,000个请求。您只需确保每个Web请求都可以自包含在一个线程中。
你肯定*不*想给每个请求其自己的线程如果你想一次处理10,000个请求! (所涉及的堆栈会让你的内存像疯了一样。)使用异步API将并行化操作*不需要*为每个请求花费一个线程。 – 2008-11-30 20:34:00
这是一个有争议的问题,因为我只需要一次执行一个请求。速度的需要是因为用户正在等待答复。 – 2008-11-30 20:51:28