单页网页爬虫PHP
答
$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(&$value)
{
trim($value);
if(strlen($value > 3)
echo $value;
}
array_walk($words, 'trim_and_print');
这应该打印长度> 3.感谢的话moteutsch为的file_get_contents
答
您的问题不是很清楚,但您需要下载页面(使用cURL或PHP的文件功能)并以某种方式处理文件。下面是一个基本的解决方案:
echo strip_tags(file_get_contents('http://www.google.com'));
你说的“打印所有词语的该页面的源代码的意思“? – Omer 2011-06-09 22:35:47
我的意思是..解析通过页面的正文和打印长度超过3的所有单词.. – rkt 2011-06-09 22:38:27
定义单词?你在谈论文字中的单词吗?标签?这很令人困惑 – Omer 2011-06-09 22:39:44