如何在抓取在线商店时处理动态网址?

问题描述:

我正在爬网上商店进行价格比较。商店的Mot正在大量使用动态URL。这会导致我的抓取工具在每个在线商店上花费大量时间。尽管其中大多数只有5-6k独特产品,但它们具有大于等于300k的唯一网址。任何想法如何解决这个问题。如何在抓取在线商店时处理动态网址?

在此先感谢!

如果解析某些产品页面,通常这些URL有某种产品ID。

找到从网址中提取产品ID的模式,并使用它来过滤已访问的网址。

+0

我想要的是 - 找到网上商店的所有产品。我知道如何识别产品页面。问题是,我如何知道我已经识别出所有产品,直到我访问所有网址为止,因为它们可能包含产品链接。此外,我还没有访问已经检索到的网址 – user1276102 2012-03-17 20:26:39

+0

我有一个类似的问题与亚马逊。许多时候,类别URL有额外的参数称为'查询'(或类似),这总是不同的。我没有试图在分类页面上处理它。但是您可以尝试手动清理这些URL并将它们存储在某处,然后编写自己的重复中间件以使用存储的URL。或者你可以保持原样(就像我做的那样),只使用产品ID:只有当产品ID(你从URL中提取)没有存储在数据库(或内存)中时,才会请求产品ID页面。 – warvariuc 2012-03-18 05:43:54

+0

谢谢,这正是我面临的问题。我将不得不考虑一些其他的想法。感谢您分享您的体验! – user1276102 2012-03-19 04:23:07