python学习总结(二):通过Selenium爬取公司办公网

    由于“八项规定”要求“要精简文件简报,切实改进文风,没有实质内容、可发可不发的文件、简报一律不发。”但根据个人感觉本人所在公司的文件却有增无减。为了进一步想弄清楚关系所以对公司近5年的文件标题进行了搜集分析。现将要点记录如下:

1.公司办公网的登录和认证。出师不利,由于是公司内部办公网,不输入账号和密码是无法进入的。本人无法通过selenium定位弹出账号窗口元素,最后通过搜集找到了在网址中直接加入账号和密码的办法进行解决。

python学习总结(二):通过Selenium爬取公司办公网

python学习总结(二):通过Selenium爬取公司办公网

解决办法:driver.get(“https://username:pass[email protected]/nagios/“);

源自:https://blog.csdn.net/qiyueqinglian/article/details/47813331

2.跳转页面的方式。由于没有“下一页”的链接,最后思考了下只有通过确定尾页共有多少页,再通过输入页面框,再遍历每一页。

python学习总结(二):通过Selenium爬取公司办公网

python学习总结(二):通过Selenium爬取公司办公网

3.通过selenium+xpath直接定位元素获取信息。一页共有20行信息,考虑到最后一页可能没有20行,需加入if,break。

python学习总结(二):通过Selenium爬取公司办公网

python学习总结(二):通过Selenium爬取公司办公网

4.分析结果,目前将近五年1.7万个文件全部收集到了,统计了数量和趋势。文件具体内容需制定“分析框架”并借助其他工具下一步分析。

python学习总结(二):通过Selenium爬取公司办公网