爬虫项目(三)之java文章
爬虫项目(三)之java文章
private void setList(ModelAndView mav, String mavObject, String filePath) {
List<String> list = _fileUtils.getFiles2(filePath);
Collections.sort(list);
List<LoveqVO> loveqVOList = new ArrayList<>();
for (String s : list) {
String name = s.substring(s.lastIndexOf("\\") + 1);
String url = s.substring(s.indexOf("\\"));
loveqVOList.add(new LoveqVO(name, url));
}
mav.addObject(mavObject, loveqVOList);
}
需求:定时获取某网站的文章到本地以txt格式文件保存,页面展示txt里的内容。这样不用调用数据库,title作为txt的文件名称,文章内容,包含css等样式存储txt里面。这样就可以快速爬取各大网站的文章,机械硬盘一般为1T,大容量储存。每次获取前,可将txt文件全部删除再存储。
//第一步:清空文件夹
filesClean(filePath);
//第二步:下载网页
Yss8Article page = _downloadPageUtils.downloadPage(url);
//第三步:解析网页
_processPageUtils.processzhiyinPage(page, title, pat);
//第四步,存储网页
_storePageUtils.storePageInfo(page, filePath);
//第五步:解析完毕
logger.info("url:" + url + "解析完毕!");
//休息5秒,再爬取内容
sleep(5000);
5大步实现爬虫项目,需要代码学习研究,请点击 http://47.98.237.162/detail/1/189