python学习总结（二）：通过Selenium爬取公司办公网

由于“八项规定”要求“要精简文件简报，切实改进文风，没有实质内容、可发可不发的文件、简报一律不发。”但根据个人感觉本人所在公司的文件却有增无减。为了进一步想弄清楚关系所以对公司近5年的文件标题进行了搜集分析。现将要点记录如下：

1.公司办公网的登录和认证。出师不利，由于是公司内部办公网，不输入账号和密码是无法进入的。本人无法通过selenium定位弹出账号窗口元素，最后通过搜集找到了在网址中直接加入账号和密码的办法进行解决。

源自：https://blog.csdn.net/qiyueqinglian/article/details/47813331

2.跳转页面的方式。由于没有“下一页”的链接，最后思考了下只有通过确定尾页共有多少页，再通过输入页面框，再遍历每一页。

python学习总结（二）：通过Selenium爬取公司办公网

3.通过selenium+xpath直接定位元素获取信息。一页共有20行信息，考虑到最后一页可能没有20行，需加入if，break。

python学习总结（二）：通过Selenium爬取公司办公网

4.分析结果，目前将近五年1.7万个文件全部收集到了，统计了数量和趋势。文件具体内容需制定“分析框架”并借助其他工具下一步分析。

python学习总结（二）：通过Selenium爬取公司办公网