python爬取的数据如何导入excel---以当当网为例

一、相关模块的下载与安装

(一) 首先需要几个模块,xlrd(下载地址为:https://pypi.org/project/xlrd/#files),xlwt(下载地址为:https://pypi.python.org/pypi)。现在以xlrd的安装为例。

    cmd进入xlrd所在的文件夹,然后输入pip install xlrd-1.1.0-py2.py3-none-any.whl(就是你所下载的模块的名称),结果如图所示:

                        python爬取的数据如何导入excel---以当当网为例 (名称)

                          python爬取的数据如何导入excel---以当当网为例

    由于xlwt已存在,所以就无需安装:

                           python爬取的数据如何导入excel---以当当网为例

(二)BeautifulSoup的简单介绍与安装

    BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。

    安装使用控制台,输入pip install beautifulsoup,发现已成功安装。

                              python爬取的数据如何导入excel---以当当网为例

(三)同样的方法安装了xlutils(地址为https://pypi.org/project/xlutils/#files)和openpyxl(这个没有去下载模块,直接在控制台输入pip install openpyxl),同时安扎un个了html5lib(这个直接诶控制台安装就好),如下图所示:

                                 python爬取的数据如何导入excel---以当当网为例

二、爬取当当网并写入excel

    本文以爬取当当网--图书--科技类--计算机---程序设计为例,爬取程序设计类的图书的书名、链接、评论数,并将内容写入excel。

    首先设置items:

                                    python爬取的数据如何导入excel---以当当网为例

    然后设置pipelines:

                                     python爬取的数据如何导入excel---以当当网为例

    最后设置爬虫文件dd.py的内容,见下图:

                                    python爬取的数据如何导入excel---以当当网为例

三、运行结果

    从控制台进入到dangdang文件夹,然后输入scrapy crawl dd,就可以运行了,结果如下图:

                                    python爬取的数据如何导入excel---以当当网为例

    以上就是相关爬虫写入excel中的代码,还有很多不完善的地方,仅供大家参考。