通过php curl抓取内容
问题描述:
iam尝试使用php curl开发内容抓取器,我需要从url中检索内容,例如:http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/并将其存储在csv文件中。例如:如果我输入一个url来提取数据,它应该将标题,内容,标签存储在csv中,然后为下一个url存储。他们的任何片段是这样的吗?通过php curl抓取内容
下面的代码生成所有内容,我需要在标题中明确称,帖子
<?php
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/');
echo strip_tags($homepage);
?>
答
的内容有很多方法。事实上,你想分析一个HTML文件。 strip_tags是一种方式,但是很脏。
我建议你为此使用DOMDocument类(在so.com上应该有很多其他的方法)。其余的是标准的PHP,写作和从CSV阅读是有据可查的上php.net
示例获取链接在网站上(不是我): http://php.net/manual/en/class.domdocument.php#95894
@snoopy感谢输入,我会如果你为我开始粘贴任何代码就会很高兴 – Ezhil
刚刚添加了一个例子,也许这会有所帮助。 – sascha