爬虫项目（三）之java文章

private void setList(ModelAndView mav, String mavObject, String filePath) {
		List<String> list = _fileUtils.getFiles2(filePath);
		Collections.sort(list);
		List<LoveqVO> loveqVOList = new ArrayList<>();
		for (String s : list) {
			String name = s.substring(s.lastIndexOf("\\") + 1);
			String url = s.substring(s.indexOf("\\"));
			loveqVOList.add(new LoveqVO(name, url));
		}
		mav.addObject(mavObject, loveqVOList);
	}

需求：定时获取某网站的文章到本地以txt格式文件保存，页面展示txt里的内容。这样不用调用数据库，title作为txt的文件名称，文章内容，包含css等样式存储txt里面。这样就可以快速爬取各大网站的文章，机械硬盘一般为1T，大容量储存。每次获取前，可将txt文件全部删除再存储。
爬虫项目（三）之java文章

 //第一步：清空文件夹
 filesClean(filePath); 
 //第二步：下载网页
        Yss8Article page = _downloadPageUtils.downloadPage(url);
        //第三步：解析网页
        _processPageUtils.processzhiyinPage(page, title, pat);
        //第四步，存储网页
        _storePageUtils.storePageInfo(page, filePath);
        //第五步：解析完毕
        logger.info("url:" + url + "解析完毕！");
        //休息5秒，再爬取内容
        sleep(5000);

5大步实现爬虫项目，需要代码学习研究，请点击 http://47.98.237.162/detail/1/189

爬虫项目（三）之java文章

爬虫项目（三）之java文章

相关推荐