Web Scraping图像

问题描述:

我在想网络抓取的应用(对它还是比较新的),并提出了一个问题。如果页面上有广告,您是否可以从页面获取图像(例如,您是否可以避开广告并仅在页面上查找正确的图像内容)?另外,如果图像也是另一页的链接,你能说下一页并获取该图像(然后从那里开始,直到你达到一定数量或获得所有图像)?这意味着要避免进入广告页面。Web Scraping图像

+0

您可以使用此扩展程序并根据需要有条件地自定义您的scraping agent。 https://chrome.google.com/webstore/detail/web-scraping-app/gpolcofcjjiooogejfbaamdgmgfehgff – Vicky 2015-12-26 14:12:20

绝对。如果你使用像kimonolabs.com这样的工具,这可能相对容易。你点击页面上你想要的数据,所以Kimono不用获取包括广告在内的所有图像,而是使用你点击的数据的CSS选择器来知道要抓取哪些数据。

你可以使用和服来获取链接中的数据。这实际上是一种非常常见的用途。这是一个分解的策略:https://help.kimonolabs.com/hc/en-us/articles/203438300-Source-URLs-to-crawl-from-another-kimono-API

这可能是一个有用的解决方案,特别是如果你不是程序员,因为它不需要编码经验。这是一个非常强大的工具。

我认为如果您对PHP编程还可以,请查看php简单的html dome解析器。我用了很多,并废弃了许多网站。