爬取李开复博客并导入mongodb数据库

1.实验目的
l 掌握使用Scrapy等爬虫工具编写爬虫程序的基本思路;
l 掌握抓取列表+详情的静态组合页面的方法
2.实验要求

  1. 抓取目标。可以选择以下网站作为抓取目标,也可以自行寻找自己感兴趣的抓取目标:
    爬取网页:“李开复的博客”:http://blog.sina.com.cn/kaifulee
  2. 任务要求。
    1)分析页面结构,确定待抓取的数据项,至少应抓取文章标题、发表时间、正文内容、文章URL等,可以根据选择的抓取目标的内容特点增加额外的数据项,如抓取新浪博客时可以额外抓取标签、分类、阅读数、评论数等数据项,新闻类可以额外抓取作者、新闻来源等数据项。

2)正确处理目录页面和正文页面,能够自动抓取至少100篇网页内容。

3)数据持久化。将数据存入磁盘文件,Scrapy可以参考下列文章:
https://blog.csdn.net/qy20115549/article/details/52575291
爬取结果:
csv文件
爬取李开复博客并导入mongodb数据库

爬取李开复博客并导入mongodb数据库
爬取李开复博客并导入mongodb数据库
github源码链接:
https://github.com/wmj555/datapython