Selenium_Crawler

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

代码更新

2020/10/29 修改了每次爬取时覆盖上次爬取的文件的bug

2020/10/29 修改了项目文件目录结构

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

New_York_Times_Crawler：存 New York Tiems 的爬虫代码

New_York_Times_Data：存放成功爬取的数据，格式分别为 csv 和 excel

news_crawler.py： New York Tiems 的爬虫代码

news_url.txt：存放想要爬取的 New York Tiems 的 url 地址（可以放置多条地址）

Twitter_Crawler：存放 Twitter 的爬虫代码

TwitterData：存放成功爬取的数据，格式分别为 csv 和 excel

twitter_crawler.py：Twitter 的爬虫代码

twitter_url.txt：存放想要爬取的 Twitter 的 url 地址（可以放置多条地址）

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

本代码使用的是 Python 中的 Selenium 模块，如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。

Twitter 和 New York Times 访问速度过慢

爬虫代码中断

访问速度过慢的话，这个没有办法帮你，网络环境的问题请自行查找解决办法

爬虫代码中断，一般情况下，网络环境没问题，设置的 URL 完整的话不会出现爬虫代码中断的错误，遇到的话请多跑几遍代码在询问，并附上错误信息