的Java读取使用URL

问题描述:

网页如何读取相同的URL的翻页的Java读取使用URL

页面的URL包含许多页面,我读使用第一页

URL(url).openStream() 

,但它只是读取第一

页例如这个网站我读的第一页我怎么能读取第二culture.gov.uk/news/news_stories/6832.aspx

+1

不要问你自己的问题重复http://*.com/questions/4438519/read-the-follow-link,编辑第一个,并尝试使其明智 – JoseK 2010-12-14 14:02:31

+0

有没有这样的事情,下一页的网址。一个URL对应于一个页面。它可能包含指向其他页面的链接,但与原始网址无关。而且没有自然顺序,所以不可能知道哪个页面是“下一个”。 – 2010-12-14 15:34:11

+0

感谢例如本网站我读了第一页我如何阅读第二页http://www.culture.gov.uk/news/news_stories/6832.aspx – asas 2010-12-14 15:53:35

下一页将有一些链接。

您可以解析HTML并收集所有链接,然后您可以过滤掉该页面的下一个链接,然后以相同的方式读取它。

Here is the example that will list all the links from given page. - using JSOUP

注:这当然是生病法律为一些网站这样做。

您将需要分页的URL方案。例如,它可以是url + "?page=" + page。这取决于网站。请注意,scraping并不总是legal