【心得分享】基于华为云的Python3-ECS-OBS爬虫实验总结
俗话说的好,人为财死鸟为食亡,最近在手环的驱动下参加了一个华为云的微认证(使用Python爬虫抓取图片),在短短的一个小时内感觉收货颇丰,总结如下。
微认证爬虫实验介绍
华为云的这个微认证总共有4步:
- 在华为云上购买认证
- 在线学习理论知识
- 在华为云平台上实验
- 在线考试
考试有24道题,包括判断题,单选题,多选题,时长45min,满分100,70分就通过了,过了后华为云会发一个证书,当然,可以申请领取一个华为荣耀手环,一举多得,何乐而不为呢?人生苦短,即使行乐。
实验过程
这次学习有两个部分:理论学习 + 实践学习。
理论学习
理论学习部分主要学习的知识如下:
- 爬虫相关概念(8min课程)
- 定义:爬虫是一种获取网络信息的自动化程序
- 工作方式:获取网页 -> 解析网页 -> 提取信息
- Python3基础(30min课程)
- 数据类型
- 变量
- 流程控制(分支、循环)
- 函数
- 包的使用
- 异常处理
- 文件操作
- HTML、HTTP、requests库(15min课程)
- HTML标签及框架
- HTTP协议(对资源的定位、对资源的操作)
- requests库的安装和使用
实践学习
实践学习是在华为云上进行的,主要学习了两点:
- ECS的使用:如何在ECS上运行python3爬虫程序;
- OBS的使用:如何将爬取到的图片资源使用OBS存储;
在实践过程中写了三篇博客记录:
实验总结
这次学习的目的性非常强,就是如何使用Python3爬取图片并存储到OBS,并且是先理论后实践的学习模式,感觉这种学习模式挺不错的。
在这一个小时之内虽说没有深入的了解python3语法知识,HTTP协议,request库,但是大致的了解了如何编写爬虫爬取自己需要信息,即:
- 使用浏览器查看网页源代码,分析出目的url
- 使用requests库向目的url发送HTTP请求,获取网页
- 使用BS库或者正则表达式re库提取关键信息(比如图片的url格式)
有了这个框架后就可以编写一些简单的爬虫,比如我现在要做的一件事:
- 将****上78篇文章全部爬取下来,并将所有的图片保存到单独的文件夹中
- 将所有的图片上传到自己的图床中(OBS)
- 使用Python遍历所有文章,将图片链接替换为图床链接;
- 将新的博客文档上传到自己搭建的博客中;
除了知识点之外,其实这种精准的学习模式也值得效仿,在这个信息爆炸的时代,知识是学不完的,我们可以成为某一个极小领域的专家,而不可能成为很多领域的专家,这样就达不到“专”
字。
所以这里我有个小小的学习建议:
- 对于本领域的内容:建议系统学习,深造之后必定有所成就;
- 对于不是本领域的内容:建议以应用为目的,精准学习,多借助第三方的东西,省下来这些完全没有必要的时间和精力。