R爬虫RSelenium环境搭建及简单应用

R爬虫RSelenium环境搭建及简单应用

接下来就是搭建步骤

一、安装JDK
在官网https://www.oracle.com/technetwork/java/javase/downloads/index.html下载JDK并安装。

二、创建环境变量
(1) 单击“计算机-属性-高级系统设置”,单击“环境变量”。
R爬虫RSelenium环境搭建及简单应用
(2) 在“系统变量”栏下单击“新建”,创建新的系统环境变量
R爬虫RSelenium环境搭建及简单应用
a) 新建变量名"JAVA_HOME",变量值"D:\JDK"(即JDK的安装路径);
b)新建变量名“CLASSPATH”,变量值
.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
c) 编辑变量名"Path",在原变量值的最后面加上
;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
R爬虫RSelenium环境搭建及简单应用
安装完成后,cmd进入命令行,执行java -version能看到正确版本、执行javac不报错即可。

三、下载selenium
在网址http://selenium-release.storage.googleapis.com/index.html下载,比如我下载的就是selenium-server-standalone-4.0.0-alpha-1.jar,下载完成之后将该文件放在R语言工作目录下面,如何获取R语言当前工作目录:setwd()。
四、下载chrome浏览器驱动
在网址http://npm.taobao.org/mirrors/chromedriver/下载chrome浏览器驱动,注意要找到适合自己版本的浏览器驱动,以下是查看chrome浏览器版本步骤
(1) 点击chrome浏览器右上角三个竖着的点;
(2) 点击“帮助”,选择“关于Google Chrome(G)”,然后出现以下窗口
R爬虫RSelenium环境搭建及简单应用
我的版本是84.0.4147.105,在上述网址选择适合该版本的,注意可能没有正好跟这个版本数字相同的驱动,这个时候就要选择数字重合度最高的那个版本,比如我选择
R爬虫RSelenium环境搭建及简单应用
这个下载完了之后直接放到R语言工作目录或者chrome浏览器的安装目录,不需要你点击安装,复制粘贴即可,至于具体放在哪里由你自己决定,有些人可能必须要放在chrome浏览器的安装目录,这个的选择就看之后使用selenium的时候能不能驱动浏览器了,如果不能,那就换一个安装目录。
至此,selenium、chrome驱动、JDK都已经安装好了即环境已经搭建好了,可以开始使用selenium了:
(1) 打开RStudio,在terminal这个窗口输入java -Dwebdriver.chrome.driver=chromedriver.exe -jar selenium-server-standalone-4.0.0-alpha-1.jar,也可以将这一段代码写在txt文档,然后另存为bat文件(比如直接将rs.txt后缀名改成rs.bat),然后只需要在terminal窗口输入rs.bat,注意“rs.bat”这个文件只能放在R语言当前工作目录,如果不报错的话就说明基本上已经成功了;
R爬虫RSelenium环境搭建及简单应用
(2) 安装R语言包RSelenium并library;
(3) 接下来我们可以试着打开百度看看
a) 在Console窗口输入rd = remoteDriver(browserName = “chrome”, remoteServerAddr = “localhost”, port = 4444L),这里要注意了,如果上述第(1)步报错出现 – Port 4444 is busy……,那么说明这个端口被占用了,怎么解决呢?可以把4444换成5566或者7788,当然了,随便你;也可以将这个端口的进程结束掉—win+r中输入netstat -ano所有连接的pid,这个pid所对应的进程需要去任务管理中找到,在详细信息栏中结束掉即可,也可以使用关机重启大法;
(4) url = ‘https://www.baidu.com/’,注意百度的网址不是www.baidu.com,前面有https,千万要注意;
(5) rdopen()(6)rdopen() (6) rdnavigate(url)
(7) 然后就发现成功了!
R爬虫RSelenium环境搭建及简单应用