【心得分享】基于华为云的Python3-ECS-OBS爬虫实验总结

俗话说的好,人为财死鸟为食亡,最近在手环的驱动下参加了一个华为云的微认证(使用Python爬虫抓取图片),在短短的一个小时内感觉收货颇丰,总结如下。

【心得分享】基于华为云的Python3-ECS-OBS爬虫实验总结

微认证爬虫实验介绍

华为云的这个微认证总共有4步:

  • 在华为云上购买认证
  • 在线学习理论知识
  • 在华为云平台上实验
  • 在线考试

考试有24道题,包括判断题,单选题,多选题,时长45min,满分100,70分就通过了,过了后华为云会发一个证书,当然,可以申请领取一个华为荣耀手环,一举多得,何乐而不为呢?人生苦短,即使行乐。

实验过程

这次学习有两个部分:理论学习 + 实践学习。

理论学习

理论学习部分主要学习的知识如下:

  • 爬虫相关概念(8min课程)
    • 定义:爬虫是一种获取网络信息的自动化程序
    • 工作方式:获取网页 -> 解析网页 -> 提取信息
  • Python3基础(30min课程)
    • 数据类型
    • 变量
    • 流程控制(分支、循环)
    • 函数
    • 包的使用
    • 异常处理
    • 文件操作
  • HTML、HTTP、requests库(15min课程)
    • HTML标签及框架
    • HTTP协议(对资源的定位、对资源的操作)
    • requests库的安装和使用

实践学习

实践学习是在华为云上进行的,主要学习了两点:

  • ECS的使用:如何在ECS上运行python3爬虫程序;
  • OBS的使用:如何将爬取到的图片资源使用OBS存储;

在实践过程中写了三篇博客记录:

实验总结

这次学习的目的性非常强,就是如何使用Python3爬取图片并存储到OBS,并且是先理论后实践的学习模式,感觉这种学习模式挺不错的。

在这一个小时之内虽说没有深入的了解python3语法知识,HTTP协议,request库,但是大致的了解了如何编写爬虫爬取自己需要信息,即:

  • 使用浏览器查看网页源代码,分析出目的url
  • 使用requests库向目的url发送HTTP请求,获取网页
  • 使用BS库或者正则表达式re库提取关键信息(比如图片的url格式)

有了这个框架后就可以编写一些简单的爬虫,比如我现在要做的一件事:

  • 将****上78篇文章全部爬取下来,并将所有的图片保存到单独的文件夹中
  • 将所有的图片上传到自己的图床中(OBS)
  • 使用Python遍历所有文章,将图片链接替换为图床链接;
  • 将新的博客文档上传到自己搭建的博客中;

除了知识点之外,其实这种精准的学习模式也值得效仿,在这个信息爆炸的时代,知识是学不完的,我们可以成为某一个极小领域的专家,而不可能成为很多领域的专家,这样就达不到“专”字。

所以这里我有个小小的学习建议:

  • 对于本领域的内容:建议系统学习,深造之后必定有所成就;
  • 对于不是本领域的内容:建议以应用为目的,精准学习,多借助第三方的东西,省下来这些完全没有必要的时间和精力。