钢七连实战C1-P2:js-python 爬虫

钢七连实战C1-P2:js-python递归、非递归、爬虫

教学内容:
1. 递归题目js版
   递归题目python版
2.爬虫项目的找资料、设计、编码、调试

   爬虫怎样用递归?
   爬虫的广度搜索,递归改写非递归。

3. JavaScript网页特效、插件库。JavaScript各种开发库。Python turtle库。Pygame游戏库

一、找资料

资料1:西安电子科技大学出版社,《网络空间安全技术实践教程》,2017年出版

资料2:JAVA爬虫

https://blog.****.net/qwe86314/article/details/91450098

资料3:C++爬虫

(1)C++数据结构的爬虫应用:广度搜索的非递归格式写法

(2)C++计算机网络的爬虫应用:使用tcp socket发送HTTP请求报文,访问网站

(3)C++文件读写操作:保存图片

(4)C++集合类和泛型、模板。JAVA也有集合类、泛型、模板。

源码:https://www.cnblogs.com/alexhg/p/6656130.html

学生问题:

(1)100行的python爬虫,和300行的C++爬虫,哪个对学生帮助大?

会使用车,已经很好。但是造车轮、造车辆,更有价值。因为,对基础内容的了解,直接决定了能否修车、造新车。

  1. 使用Scrapy出了问题,是否能靠查阅《Scrapy手册》解决?当Scrapy被更好的工具取代,再学新教程、新手册、新培训,怎样能跟得上工具变化。
  2. 怎样实现Scrapy没有的功能。
  3. 放弃、忽视基本功,只有“学生中的高手”、学长说过这话。行业专家和培训机构老师,从来没有说过,不要基本功,只要工具和库熟练就好。培训机构只说过“工具和库的熟练,可以保证就业”,但一定重视基本功。
  4. 抖音推出飞书,要打败微信。一定是做了更好的功能,会SSM的学生很多,做出飞书的,很少。

资料4:

使用Python网络编程、正则表达式、html网页文本解析、python字符串处理

资料5:使用Python Scrapy框架http://www.scrapyd.cn/

资料6:八爪鱼辅助工具

资料7:python、爬虫、自动化测试的各种免费/付费慕课。

资料8:Scrapy样例代码

  1. 例题1:爬小说 https://blog.****.net/Uupton/article/details/80566285
  2. 例题2:爬小说写入txt文件

https://blog.****.net/baidu_26678247/article/details/75086587

  1. 例题3:翻页爬取:https://www.cnblogs.com/bluesky-ivy/p/6203603.html

 

二、学生的三个问题:

  1. 时间成本问题

一个人,安装python、安装开发工具,阅读以上3篇教程,看了网上的免费慕课、收费慕课,是否能调通程序?如果能调通,从安装、学习、到调通,看到结果,需要多少时间。

  1. 消化理解,后续改进和应用问题。

是否能改写为爬取其他内容?

是否能实现更高级的爬取功能?绕过各种登录限制、绕过反爬限制?是否能将该技术用于一个新题目、新项目?

  1. 数据结构、设计模式的基本功。

是否了解其中包含的技术知识、原理知识?

是否能为Scrapy开发一个通用插件?

是否能把Scrapy封装改进?把Scrapy封装成一个图形界面的简便工具?

是否能举一反三,了解、学习其他python库,比如Selenium。是否能开发出比Scrapy更好的工具软件。

 

资料:Python Selenium Webdriver函数总结

https://www.cnblogs.com/georgexu/p/11224185.html

 

资料:Scrapy本身的架构,工作原理

钢七连实战C1-P2:js-python 爬虫

参考:https://www.e-learn.cn/content/qita/2004779

 

  • 设计

根据自己的爬虫需要,设计实现方案:登录、反扒、获取、数据整理。

后续分析:保存输出获得的数据。python数据挖掘。

 

  • 编码

简单工具,或复杂工具,编程。

 

  • 调试

断点,调试日志输出技术。

断点资料1:https://my.oschina.net/crossin/blog/1818089

断点资料2:https://blog.****.net/DCclient/article/details/81153254

Python日志模块:

https://www.cnblogs.com/hanmk/p/10448963.html

Python输出日志文件:  

https://blog.****.net/qq_18543521/article/details/90485515