我的小白python代码(六) 作业9:读取html格式数据

先看一下这个作业的具体描述,就是从网络上读取一个特定的html脚本,再将里面的教师信息数据整合起来存成一个DataFrame的数据结构,然后在python里面print出来= =

这个东西就有点烦的样子,先看一下老师的作业描述
我的小白python代码(六) 作业9:读取html格式数据
然后,比较复杂的一点就是因为是我们学校的官网(就是相比于官方的一些网站来讲)代码显得很没有条理……没办法= =

所以这东西分析起来就比较烦的样子,首先我们要先,用眼睛找到这些数据在哪里……

所以说我打开了我们信工学院官网的教师介绍页面(全称是浙江财经大学信息管理与工程学院,希望几年之后他还是叫这个名字,因为emm听到风声说学院似乎要改名了)。大概是这个样子↓
我的小白python代码(六) 作业9:读取html格式数据
先明确我们需要什么信息,怎么存储数据(这样可以少走弯路,当然这是在我写完作业之后才谜之总结出来的结果))))

和之前的那个读kml数据的作业一样先把所有的你可能要用的数据print出来看,(其实我觉得这种方法又蠢又高效,因为只有看到我代码里得到的信息,我才能和我想象中想要得到的信息放在一起对比—>错的话可以知道自己错在哪里,对的话离成功极近)

好的现在回答做这个作业我们需要什么信息,很简单我们需要教师名称,对应的职位(教授、副教授和讲师)就是表格前面的描述括号里面的是职称对应的人数,还有对应的个人主页(上面包括了这位老师的研究方向和个人科研成果之类的介绍,有助于= =大一新生选导师= =)

ok其实要拿到的信息也不是很多,一个个来,先看看这让人头痛的网页结构,右键 -> 检查可以查看网页源代码
我的小白python代码(六) 作业9:读取html格式数据

然后我们可以发现这个网页其实不是很复杂,只有600+行
我的小白python代码(六) 作业9:读取html格式数据

那我们要在源码里面把这个表格得到,它大概在这里
我的小白python代码(六) 作业9:读取html格式数据