爬取李开复博客并导入mongodb数据库

1.实验目的
l 掌握使用Scrapy等爬虫工具编写爬虫程序的基本思路；
l 掌握抓取列表+详情的静态组合页面的方法
2.实验要求

抓取目标。可以选择以下网站作为抓取目标，也可以自行寻找自己感兴趣的抓取目标：
爬取网页：“李开复的博客”：http://blog.sina.com.cn/kaifulee
任务要求。
1）分析页面结构，确定待抓取的数据项，至少应抓取文章标题、发表时间、正文内容、文章URL等，可以根据选择的抓取目标的内容特点增加额外的数据项，如抓取新浪博客时可以额外抓取标签、分类、阅读数、评论数等数据项，新闻类可以额外抓取作者、新闻来源等数据项。

2）正确处理目录页面和正文页面，能够自动抓取至少100篇网页内容。

3）数据持久化。将数据存入磁盘文件，Scrapy可以参考下列文章：
https://blog.csdn.net/qy20115549/article/details/52575291
爬取结果：
csv文件
爬取李开复博客并导入mongodb数据库

爬取李开复博客并导入mongodb数据库

github源码链接：
https://github.com/wmj555/datapython