爬虫基础知识
爬虫基础知识
- 爬虫是模拟客户端发生网络请求,接受请求响应
- http:超文本传输协议
- https:http+ssl(安全套接字层)
url形式:scheme://host[:port#]/path/.../[?query_string][#anchor]
- scheme://host[:port#]/path/.../[?query_string][#anchor]
- host:服务器的ip地址和域名
- port:服务器的端口(如果是走协议默认端口,80or443)
- path:访问资源的路径
- query:参数,发送给http服务器的数据
- anchor:锚(跳转到网页的制定锚点位置)
HTTP常见请求头
- host:主机和端口号
- connection:链接类型
- upgrade-insecure-requests:升级为https请求
- user_agent:浏览器名称
- accept:传输文件类型
- refer:页面跳转处
- accept-encoding:文件编码解码个数
- cookie:保持在本地的coookie信息
- x-requested-with:XMLHttpRequest:是Ajax异步加载
请求方法 GET&POST
-
GET是从服务器上获取数据,POST是向服务器传送数据
-
GET请求参数显示,都显示在浏览器网址上,HTTP服务器根据该请求所包含URL中的参数来产生响应内容,即“Get”请求的参数是URL的一部分。 例如:
http://www.baidu.com/s?wd=Chinese
-
POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在“Content-Type”消息头里,指明该消息体的媒体类型和编码,
注意:避免使用Get方式提交表单,因为有可能会导致安全问题。 比如说在登陆表单中用Get方式,用户输入的用户名和密码将在地址栏中暴露无遗
响应状态码
- 200:成功
- 302:临时转移至新的url
- 307:临时转移至新的url
- 404:not found
- 500:服务器内部错误