修复网站上的链接地址HTML代码

问题描述:

最近我一直在使用一种工具。它抓取网站上的所有链接地址。修复网站上的链接地址HTML代码

我的问题是,在HTML代码的链接,有时是不同的:

我需要的所有环节相同:

/index.php      -> http://www.website.com/index.php 
index.php      -> http://www.website.com/index.php 
http://www.website.com/index.php -> http://www.website.com/index.php 

感谢您的帮助。

使用的preg_replace解决相对URL


要求:
$domain =主题网站域名
$path =你在寻找相对链接的文档或字符串

退货:
$url =该链接中的链接或字符串转换为具有给定域的正确url。

代码:

$url = preg_replace('<a\shref="([\/\?\w\.=\&]+)"([\s]rel="(\w+)")*>/', '<a href="http://{$site_domain}$1" rel="$3">' $path) 

好运气,让我知道如何去。

欢迎使用GoogleOverflow.com。

下面是解析使用PHP和正则表达式中的HTML链接的完整的教程:http://www.the-art-of-web.com/php/parse-links/

+0

将此与Max S的功能相结合,即可设置。 – Jay 2010-01-28 06:59:25

+0

GoogleOverflow.com? – 2010-01-28 07:39:32

+0

在Google中输入3个标签,然后查看0.26秒内未回答问题。这种情况的发生频率令人担忧。 http://meta.stackexchange.com/questions/8724/how-to-deal-with-google-questions – Jay 2010-01-28 07:44:06

Here's a function将返回给定基(电流)URL和一个相对的绝对URL。

+0

谢谢,这确实有帮助。 – Semas 2010-01-28 07:14:15

您需要检查是否存在base标记。如果找到它,它将指定基本URL(否则,基本URL与浏览器指向的路径相同,直到最后一个)。