钢七连实战C1-P2:js-python 爬虫
钢七连实战C1-P2:js-python递归、非递归、爬虫
教学内容:
1. 递归题目js版
递归题目python版
2.爬虫项目的找资料、设计、编码、调试
爬虫怎样用递归?
爬虫的广度搜索,递归改写非递归。
3. JavaScript网页特效、插件库。JavaScript各种开发库。Python turtle库。Pygame游戏库
一、找资料
资料1:西安电子科技大学出版社,《网络空间安全技术实践教程》,2017年出版
资料2:JAVA爬虫
https://blog.****.net/qwe86314/article/details/91450098
资料3:C++爬虫
(1)C++数据结构的爬虫应用:广度搜索的非递归格式写法
(2)C++计算机网络的爬虫应用:使用tcp socket发送HTTP请求报文,访问网站
(3)C++文件读写操作:保存图片
(4)C++集合类和泛型、模板。JAVA也有集合类、泛型、模板。
源码:https://www.cnblogs.com/alexhg/p/6656130.html
学生问题:
(1)100行的python爬虫,和300行的C++爬虫,哪个对学生帮助大?
会使用车,已经很好。但是造车轮、造车辆,更有价值。因为,对基础内容的了解,直接决定了能否修车、造新车。
- 使用Scrapy出了问题,是否能靠查阅《Scrapy手册》解决?当Scrapy被更好的工具取代,再学新教程、新手册、新培训,怎样能跟得上工具变化。
- 怎样实现Scrapy没有的功能。
- 放弃、忽视基本功,只有“学生中的高手”、学长说过这话。行业专家和培训机构老师,从来没有说过,不要基本功,只要工具和库熟练就好。培训机构只说过“工具和库的熟练,可以保证就业”,但一定重视基本功。
- 抖音推出飞书,要打败微信。一定是做了更好的功能,会SSM的学生很多,做出飞书的,很少。
资料4:
使用Python网络编程、正则表达式、html网页文本解析、python字符串处理
资料5:使用Python Scrapy框架http://www.scrapyd.cn/
资料6:八爪鱼辅助工具
资料7:python、爬虫、自动化测试的各种免费/付费慕课。
资料8:Scrapy样例代码
- 例题1:爬小说 https://blog.****.net/Uupton/article/details/80566285
- 例题2:爬小说写入txt文件
https://blog.****.net/baidu_26678247/article/details/75086587
二、学生的三个问题:
- 时间成本问题
一个人,安装python、安装开发工具,阅读以上3篇教程,看了网上的免费慕课、收费慕课,是否能调通程序?如果能调通,从安装、学习、到调通,看到结果,需要多少时间。
- 消化理解,后续改进和应用问题。
是否能改写为爬取其他内容?
是否能实现更高级的爬取功能?绕过各种登录限制、绕过反爬限制?是否能将该技术用于一个新题目、新项目?
- 数据结构、设计模式的基本功。
是否了解其中包含的技术知识、原理知识?
是否能为Scrapy开发一个通用插件?
是否能把Scrapy封装改进?把Scrapy封装成一个图形界面的简便工具?
是否能举一反三,了解、学习其他python库,比如Selenium。是否能开发出比Scrapy更好的工具软件。
资料:Python Selenium Webdriver函数总结
https://www.cnblogs.com/georgexu/p/11224185.html
资料:Scrapy本身的架构,工作原理
参考:https://www.e-learn.cn/content/qita/2004779
- 设计
根据自己的爬虫需要,设计实现方案:登录、反扒、获取、数据整理。
后续分析:保存输出获得的数据。python数据挖掘。
- 编码
简单工具,或复杂工具,编程。
- 调试
断点,调试日志输出技术。
断点资料1:https://my.oschina.net/crossin/blog/1818089
断点资料2:https://blog.****.net/DCclient/article/details/81153254
Python日志模块:
https://www.cnblogs.com/hanmk/p/10448963.html
Python输出日志文件:
https://blog.****.net/qq_18543521/article/details/90485515