如何在抓取在线商店时处理动态网址？

问题描述：

我正在爬网上商店进行价格比较。商店的Mot正在大量使用动态URL。这会导致我的抓取工具在每个在线商店上花费大量时间。尽管其中大多数只有5-6k独特产品，但它们具有大于等于300k的唯一网址。任何想法如何解决这个问题。如何在抓取在线商店时处理动态网址？

在此先感谢！

答

如果解析某些产品页面，通常这些URL有某种产品ID。

找到从网址中提取产品ID的模式，并使用它来过滤已访问的网址。

我想要的是 - 找到网上商店的所有产品。我知道如何识别产品页面。问题是，我如何知道我已经识别出所有产品，直到我访问所有网址为止，因为它们可能包含产品链接。此外，我还没有访问已经检索到的网址 – user1276102 2012-03-17 20:26:39

我有一个类似的问题与亚马逊。许多时候，类别URL有额外的参数称为'查询'（或类似），这总是不同的。我没有试图在分类页面上处理它。但是您可以尝试手动清理这些URL并将它们存储在某处，然后编写自己的重复中间件以使用存储的URL。或者你可以保持原样（就像我做的那样），只使用产品ID：只有当产品ID（你从URL中提取）没有存储在数据库（或内存）中时，才会请求产品ID页面。 – warvariuc 2012-03-18 05:43:54

谢谢，这正是我面临的问题。我将不得不考虑一些其他的想法。感谢您分享您的体验！ – user1276102 2012-03-19 04:23:07

如何在抓取在线商店时处理动态网址？

相关推荐