Java使用JSoup编写简单的爬虫

通过连接爬取：

//通过URL获得连接：Connection对象
Connection conn = Jsoup.connect("http://www.baidu.com");
//以下为主要方法，多数返回Connection
conn.data("query", "Java");   // 请求参数
conn.userAgent("I ’ m jsoup"); // 设置 User-Agent 
conn.cookie("auth", "token"); // 设置 cookie 
conn.timeout(3000);           // 设置连接超时时间
//发送请求，获得HTML文档：Document对象
Document doc = conn.get();
Document doc = conn.post();

DOM方式解析数据：

//获取文档级信息，如：
String title = doc.title();
//获取单个HTML元素，如：<div id="content"></div>
Element content = doc.getElementById("content");
//获取多个元素，如：<a href="http://www.qunyh.cn"></a> <a href="http://cn.bing.com"></a>
Elements links = doc.getElementsByTag("a");

举例：假如标签内直接是一个JSON：

Elements elements = doc.getElementsByTag("body");
elements.text();

这样便可以去到内部的文本。
然后使用JSONUtils转换为LinkedHashMap或者使用Gson转换为已经写好的Bean即可。
3. “jQuery”方式解析数据：

//select的参数是类似于jQuery的选择器selector
Elements allP = doc.select("p");
Element firstP = allP.first();
Element oneP = allP.get(1);//从0开始
//操作元素：
for (Element p : allP) {
    //操纵元素：这里就类似于jQuery
    String text = p.text();
}

如果满意，请打赏博主任意金额，感兴趣的在微信转账的时候，添加博主微信哦。请下方留言吧，可与博主*讨论哦。

支付宝	微信

Java使用JSoup编写简单的爬虫

相关推荐