Web抓取和入站链接解压

问题描述:

我正在寻找一个c#函数,它将Url作为参数并返回与该url相关的所有入站url。Web抓取和入站链接解压

+0

我已更正您的问题,但将来您是否会花费一些努力来编写和使用标点符号。这样每个人都可以轻松理解你在问什么! – Fischermaen 2011-12-22 12:27:03

+0

你在哪里搜索?因为谷歌已经准备好了一些例子,你有什么发现,你不明白?有一部分是你阅读这个页面,一部分是你获取上下文并处理它。 – Aristos 2011-12-22 12:39:02

您可以“下载”的网页使用WebClient类:

String url = "http://www.google.com"; 

WebClient client = new WebClient(); 
String source = client.DownloadString(url); 

然后,你需要搜索的所有URL。我很乐意为你写一个RegEx,如果你努力寻找你没有的答案,显然。

写那些正则表达式的一个是相当困难的,因为有这么多不同的事情,你一定要配合:

  • 相对URL的
  • 绝对URL的
  • IP的
  • 你必须要考虑的base标签
  • 仅限于特定标签(a,img,link,),和和)

从你的描述,你想找到“入站”祝你好运?网址到一个网址。如果是这种情况,您需要连接到API以检索该信息。我不认为Google有一个,但我知道它们存在。