java爬虫程序放到linux云服务器上执行
为了防止自己忘记,就写了下来。
首先建立了java项目文件后,将jsoup包复制到项目中,然后右键将其添加到项目中,
我们现在抓取今日头条的12377的电话号码,右键审查元素,发现举报电话使用的是class="tel",查看源码,发现tel对应的class只有一项,
这里只有一个Element,因此代码如下:
Document document = Jsoup.connect(url).get();
Element element = document.getElementsByClass("tel").first();
不能使用https,不然会异常。应使用网址:http://www.toutiao.com/
异常代码Caused by: java.security.cert.CertificateException: No subject alternative DNS name matching www.toutiao.com found.
javax.net.ssl.SSLHandshakeException: java.security.cert.CertificateException: No subject alternative DNS name matching www.toutiao.com found.
运行截图:
将改程序打包成可执行的jar文件,右键export
点击ok,这样可执行的jar包就导出来了。
使用winscp与服务器建立连接,并复制到jar到项目中
登陆腾讯云,输入账号密码后
执行java –jar Crawler.jar (最后这里默认的是在root的根目录下,如果放在root/java/Crawler.jar,则是java/Crawler.jar)
这里出现了中文乱码问题。再设置下就好
参考:linux下执行jar,