最最简洁的一个python爬虫

安装了python,就是冲着爬虫去的,那么就来敲一个爬虫吧!!!

一、各就各位

如果某位同学没有安装python3,请移步我的博客python安装前去安装python3.7.....

二、预备

安装好了,那么,win+R打开cmd,是的,我们就在cmd中写,因为只有五行代码(手动滑稽)

1、输入python运行python3

最最简洁的一个python爬虫

2、写程序肯定先写头文件吧,那么写上import urllib.request

(这个request呢,就是python给的一个现成的非常好用的库urllib下的一个非常好用的一个模块,包含着我们这次写的urlopen函数,大家可以试着了解一下urllib库)

最最简洁的一个python爬虫

 

3、我们先去找一个想看的网址,就去B站吧......

https://space.bilibili.com/40323036?spm_id_from=333.788.b_765f7570696e666f.2

(一个青岛大学的数据结构老师的主页)

那我们就看看这个主页下的源码吧!!!

在cmd写上html = urllib.request.urlopen("https://space.bilibili.com/40323036?spm_id_from=333.788.b_765f7570696e666f.2")

最最简洁的一个python爬虫

4、html变量再读出来吧!!!写上 ht = html.read()

最最简洁的一个python爬虫

5、那么输出ht试试啊,写print(ht)试试,d(ŐдŐ๑),这TMD真乱啊,不过定睛一看,欸,b开头,这不是二进制吗,转一下码呗!!

最最简洁的一个python爬虫

6、输入ht1 = ht.decode('utf-8') 转一下utf-8,然后在print(ht1)   ( ゜- ゜)つロ

最最简洁的一个python爬虫

三、跑!!!

那么我们来看一下我们拖过来的代码,这个就能感觉出来我们好像被墙了,我们经过以后的学习可以越过这个墙,看到主页本质的东西,包括每个视频的地址,然后在学一下什么什么抓包就可以刷刷的下视频了!!!(下视频不是小视频,我学习时候网上找来的代码被邮件要去,居然是为了其中的URl网址,简直可恶)!!!

最最简洁的一个python爬虫