Eclipse配置scrapy工程

最近毕业设计选的是python网络爬虫,python现成的爬虫模块有很多,scrapy,bs4等等,但是我参考的教科书上面说scrapy参考文献较多,也比较简单,便决定用这个模块来做爬虫。书中的工程是用linux终端来做爬虫,但是本人linux小白,而且更加倾向于用windows平台下的Eclipse来新建项目,所以只能自己慢慢摸索着在Eclipse中配置scrapy项目。

1.因为Eclipse中暂不支持直接创建scrapy项目,所以我们要用cmd命令行来新建一个scrapy项目

Eclipse配置scrapy工程

可以看到,用scrapy startproject +项目名这条命令创建完一个初始的scrapy项目(此时该项目只是一个scrapy模板,并不含爬虫文件)后scrapy模块很贴心的给出了提示,我们可以通过cd Scrapy和 scrapy genspider example example.com这两条命令在已有的scrapy模板下新建爬虫文件(一开始项目中有个spiders文件夹,其中该文件夹一开始的时候只有__init__.py这个文件,运行命令后出现了example.py这个文件,其中example.com是用来给该文件中的根URL初始化)。

2.在Eclipse中新建一个pydev项目,并将我们用cmd创建的scrapy项目复制到pydev项目中。这时,项目是无法运行的,因为eclispe是不知道从哪启动scrapy项目的 ,我们需要新建一个cmdline.py文件(跟items.py同目录)Eclipse配置scrapy工程

其中argv中的第三个变量是自己的爬虫名,即第一步中scrapy genspider example example.com中的example。

3.配置run Configurations.

在python run中新建configuration,其中project中填项目名,Main Module填cmdline.py位置,arguments中的program arguments填 crawl example(前面提到的自己创建的爬虫名),working directory中选other,位置为项目文件夹位置

Eclipse配置scrapy工程Eclipse配置scrapy工程

如果这时候提醒没有pypiwin32,通过pip install pypiwin32安装pypiwin32。

最后,出现如下信息,大功告成Eclipse配置scrapy工程