您的位置: 首页 > 文章 > 【心得分享】基于华为云的Python3-ECS-OBS爬虫实验总结

【心得分享】基于华为云的Python3-ECS-OBS爬虫实验总结

分类: 文章 • 2024-08-31 13:35:40

俗话说的好，人为财死鸟为食亡，最近在手环的驱动下参加了一个华为云的微认证（使用Python爬虫抓取图片）,在短短的一个小时内感觉收货颇丰，总结如下。

【心得分享】基于华为云的Python3-ECS-OBS爬虫实验总结

微认证爬虫实验介绍

华为云的这个微认证总共有4步：

在华为云上购买认证
在线学习理论知识
在华为云平台上实验
在线考试

考试有24道题，包括判断题，单选题，多选题，时长45min，满分100，70分就通过了，过了后华为云会发一个证书，当然，可以申请领取一个华为荣耀手环，一举多得，何乐而不为呢？人生苦短，即使行乐。

实验过程

这次学习有两个部分：理论学习 + 实践学习。

理论学习

理论学习部分主要学习的知识如下：

爬虫相关概念(8min课程)
- 定义：爬虫是一种获取网络信息的自动化程序
- 工作方式：获取网页 -> 解析网页 -> 提取信息
Python3基础(30min课程)
- 数据类型
- 变量
- 流程控制（分支、循环）
- 函数
- 包的使用
- 异常处理
- 文件操作
HTML、HTTP、requests库(15min课程)
- HTML标签及框架
- HTTP协议（对资源的定位、对资源的操作）
- requests库的安装和使用

实践学习

实践学习是在华为云上进行的，主要学习了两点：

ECS的使用：如何在ECS上运行python3爬虫程序；
OBS的使用：如何将爬取到的图片资源使用OBS存储；

在实践过程中写了三篇博客记录：

实验总结

这次学习的目的性非常强，就是如何使用Python3爬取图片并存储到OBS，并且是先理论后实践的学习模式，感觉这种学习模式挺不错的。

在这一个小时之内虽说没有深入的了解python3语法知识，HTTP协议，request库，但是大致的了解了如何编写爬虫爬取自己需要信息，即：

使用浏览器查看网页源代码，分析出目的url
使用requests库向目的url发送HTTP请求，获取网页
使用BS库或者正则表达式re库提取关键信息（比如图片的url格式）

有了这个框架后就可以编写一些简单的爬虫，比如我现在要做的一件事：

将****上78篇文章全部爬取下来，并将所有的图片保存到单独的文件夹中
将所有的图片上传到自己的图床中（OBS）
使用Python遍历所有文章，将图片链接替换为图床链接；
将新的博客文档上传到自己搭建的博客中；

除了知识点之外，其实这种精准的学习模式也值得效仿，在这个信息爆炸的时代，知识是学不完的，我们可以成为某一个极小领域的专家，而不可能成为很多领域的专家，这样就达不到“专”字。

所以这里我有个小小的学习建议：

对于本领域的内容：建议系统学习，深造之后必定有所成就；
对于不是本领域的内容：建议以应用为目的，精准学习，多借助第三方的东西，省下来这些完全没有必要的时间和精力。