Java使用JSoup编写简单的爬虫

  1. 通过连接爬取:
//通过URL获得连接:Connection对象
Connection conn = Jsoup.connect("http://www.baidu.com");
//以下为主要方法,多数返回Connection
conn.data("query", "Java");   // 请求参数
conn.userAgent("I ’ m jsoup"); // 设置 User-Agent 
conn.cookie("auth", "token"); // 设置 cookie 
conn.timeout(3000);           // 设置连接超时时间
//发送请求,获得HTML文档:Document对象
Document doc = conn.get();
Document doc = conn.post();
  1. DOM方式解析数据:
//获取文档级信息,如:
String title = doc.title();
//获取单个HTML元素,如:<div id="content"></div>
Element content = doc.getElementById("content");
//获取多个元素,如:<a href="http://www.qunyh.cn"></a> <a href="http://cn.bing.com"></a>
Elements links = doc.getElementsByTag("a");

举例:假如标签内直接是一个JSON:

Elements elements = doc.getElementsByTag("body");
elements.text();

这样便可以去到内部的文本。
然后使用JSONUtils转换为LinkedHashMap或者使用Gson转换为已经写好的Bean即可。
3. “jQuery”方式解析数据:

//select的参数是类似于jQuery的选择器selector
Elements allP = doc.select("p");
Element firstP = allP.first();
Element oneP = allP.get(1);//从0开始
//操作元素:
for (Element p : allP) {
    //操纵元素:这里就类似于jQuery
    String text = p.text();
}

如果满意,请打赏博主任意金额,感兴趣的在微信转账的时候,添加博主微信哦。 请下方留言吧,可与博主*讨论哦。

支付宝 微信
Java使用JSoup编写简单的爬虫 Java使用JSoup编写简单的爬虫