爬虫学习笔记第一章——通信协议&了解什么是爬虫
#1.通信协议
##1.1.端口
**·**端口是用于客户之间进行通讯的一个逻辑端口,而通讯规则通常也称之为协议
##1.2.通讯协议
**·**国际定义通用的通讯协议为TCP/IP,两台计算机之间必须遵循的协议
**··**其中http又叫超文本传输协议,它是通讯协议的一种,它的端口为80,也就是说某些特定的企业或者机构单位会拥有自己特定使用的端口等
#2.网络模型
**·**以下是两个用户之间传输文件信息的网络过程
下面我描述一下传输文件的过程:1.首先要明确我们用户是在应用层操作的,产生一个文件A;2.文件A到表示层,进行打包;3.到了会话层再进行打包;4.以此类推一直打包到物理层,通过物理层也就是网线光纤等传输给另一个用户的物理层;5.到了另一个用户后进行逐层解包,一直到另一个用户端的应用层,这就是文件传输的过程。最后我们来明确一点:我们爬虫就是在应用层操作的啦。
##2.1.下面是更新后的网络传输模型
##2.2.可能有人问什么是HTTPS?
**·**https = http + ssl,也就是说在http的基础上加上ssl保护壳,信息加密也就是在ssl加密过程完成;
##2.3.SSL怎么理解?
**·**SSL也是一个协议,它只要同于web的安全传输协议,一下是ssl的加密模型
#3.爬虫介绍
##3.1.什么是爬虫?
**·**简单来说就是代替人去模拟浏览器进行网页操作
##3.2.为什么要爬虫?
**·**为其他程序提供数据源,就我个人而言就是人工智能啦,还有数据分析,百度引擎等
##3.3、企业获取数据方式?
**·**公司自有的数据
**·**第三方平台购买的数据
**·**爬取数据
##3.4.用python爬虫的优势
**·**PHP:对多线程、异步支持不太好
**·**JAVA:代码量大,代码笨重
**·**C/C++:代码量大,难以编写
**·**Python:支持模式多,现成的代码块、开发效率高(scrapy框架)
##3.5.爬虫分类
1.通用爬虫,如baidu、google、yahu
2.聚焦网络爬虫:根据某一既定的目标抓取某一特定主体的内容
3.增量式网络爬虫:例如网页内容更新就要用到此
4.深层网络爬虫:指有些内容是不能通过静态网页获取,而是隐藏在搜索表单后的,只有用户提交验证码,登录码才能获取信息
待续。。。。