如何从网站获取包含关键字的网址?
问题描述:
如何从网站获取包含提供的关键字的网址?如何从网站获取包含关键字的网址?
例如:我想捕获所有的锚HREF的这一页http://www.catererglobal.com/rzwritingajobad.html
包含任何关键字(促进,就业)
预期成果包括:
http://www.catererglobal.com/recruiters/rz-promote-your-brand 的http:// www.catererglobal.com/recruiters/rz-job-advertising
答
这是我如何做到这一点在PHP =)
<?php
$oldSetting = libxml_use_internal_errors(true);
libxml_clear_errors();
$html = new DOMDocument();
$html->loadHtmlFile('http://www.catererglobal.com/rzwritingajobad.html');
$xpath = new DOMXPath($html);
$links = $xpath->query('//a');
foreach ($links as $link) {
$cur = $link->getAttribute('href');
if (preg_match('/(promote|job)/', $cur)) { echo "$cur\n"; }
}
libxml_clear_errors();
libxml_use_internal_errors($oldSetting);
?>
输出是:
http://www.catererglobal.com/recruiters/rz-job-advertising/10298792/post-a-job/
/recruiters/rz-job-advertising
/recruiters/rz-promote-your-brand
/moreterms/job-location
http://www.madgex.com/job-boards/
XPath是我们最好的朋友;)
不太清楚你到底要 –
你正在寻找一个“相关文章”式系统? – Death
@webbandit我觉得'不太清楚'是非常慷慨的 –