《大型网站技术架构》读书笔记二:大型网站架构模式

本篇文章是《大型网站技术架构》的笔记,感兴趣可以阅读该书。

一、网站架构模式

模式的关键在于模式的可重复性,问题与场景的可重复性带来解决方案的可重复使用

为了解决大型网站面临的高并发访问、海量数据处理、高可靠运行等一系列问题与挑战,大型互联网公司在实践中提出了许多解决方案,以实现网站高性能、高可用、易伸缩、可扩展、安全等各种技术架构目标。这些解决方案又被更多网站重复使用,从而逐渐形成大型网站架构模式


1.1 分层

分层是企业应用系统中最常见的一种架构模式,将系统在横向维度上切分成几个部分,每个部分负责一部分相对简单并比较单一的职责,然后通过上层对下层的依赖和调度组成一个完整的系统

在网站的分层架构中,常见的为3层,即应用层、服务层、数据层

  • 应用层:具体负责业务和视图的展示;
  • 服务层:为应用层提供服务支持;
  • 数据层:提供数据存储访问服务,如数据库、缓存、文件、搜索引擎等。
    《大型网站技术架构》读书笔记二:大型网站架构模式
    (图片来自:https://www.cnblogs.com/edisonchou/p/3790225.html)

但是,分层架构也有一些挑战:①必须合理规划层次边界和接口;②禁止跨层次的调用及逆向调用。


1.2 分隔

如果说分层是将软件在横向方面进行切分,那么分隔就是在纵向方面对软件进行切分。

将不同的功能和服务分割开来,包装成高内聚低耦合的模块单元,有助于软件开发和维护,还便于不同模块的分布式部署,提高网站的并发处理能力和功能扩展能力。


1.3 分布式

对于大型网站,分层和分隔的一个主要目的是为了切分后的模块便于分布式部署,即将不同模块部署在不同的服务器上,通过远程调用协同工作。分布式意味着可以使用更多的计算机完同样的工作,计算机越多,CPU、内存、存储资源就越多,能过处理的并发访问和数据量就越大,进而能够为更多的用户提供服务

在网站应用中,常用的分布式方案有一下几种.

  • 分布式应用和服务:将分层和分隔后的应用和服务模块分布式部署,可以改善网站性能和并发性、加快开发和发布速度、减少数据库连接资源消耗。可以服用共同的服务,便于业务功能扩展

  • 分布式静态资源:网站的静态资源如JS、CSS、Logo图片等资源对立分布式部署,并采用独立的域名,即人们常说的动静分离。静态资源分布式部署可以减轻应用服务器的负载压力;通过使用独立域名加快浏览器并发加载的速度。

  • 分布式数据和存储:大型网站需要处理以P为单位的海量数据,单台计算机无法提供如此大的存储空间,这些数据库需要分布式存储。

  • 分布式计算:目前网站普遍使用Hadoop和MapReduce分布式计算框架进行此类批处理计算,其特点是移动计算而不是移动数据,将计算程序分发到数据所在的位置以加速计算和分布式计算。

此外,还可以支持网站线上服务配置实时更新的分布式配置。分布式环境下实现并发和协同的分布式锁,支持云存储的分布式文件系统


1.4 集群

对于用户访问集中的模块需要将独立部署的服务器集群化,即多台服务器部署相同的应用构成一个集群,通过负载均衡设备共同对外提供服务

服务器集群能够为相同的服务提供更多的并发支持,因此当有更多的用户访问时,只需要向集群中加入新的机器即可;另外可以实现当其中的某台服务器发生故障时,可以通过负载均衡的失效转移机制将请求转移至集群中其他的服务器上,因此可以提高系统的可用性

《大型网站技术架构》读书笔记二:大型网站架构模式
(图片来自:https://www.cnblogs.com/edisonchou/p/3790225.html)


1.5 缓存

缓存目的就是减轻服务器的计算,使数据直接返回给用户。在现在的软件设计中,缓存已经无处不在。具体实现有CDN、反向代理、本地缓存、分布式缓存等


  • 反向代理:部署在网站的前端,请求到达网站的数据中心时,最先访问到的就是反向代理服务器,这里缓存网站的静态资源。无需再请求后续服务器。
    《大型网站技术架构》读书笔记二:大型网站架构模式(图片来自:http://www.bubuko.com/infodetail-2798427.html)

网站应用中,缓存除了可以加快数据访问速度,还可以减轻后端应用和数据存储的负载压力。

使用缓存有两个条件:

  • 访问数据热点不均衡,即某些频繁访问的数据需要放在缓存中;
  • 数据在某个时间段内有效,不会很快过期,否者会因为数据过期而脏读,影响数据的正确性。

1.6 异步

业务之间的消息传递不是同步调用,而是将一个业务操作分成多个阶段,每个阶段之间通过共享数据的方式异步执行进行协作。

单一服务器内部可用通过多线程共享内存队列的方式实现异步;在分布式系统中可用通过分布式消息队列来实现异步。

异步架构的典型就是生产者消费者方式,两者不存在直接调用。只要保持数据结构不变,彼此功能实现可以随意变化而不互相影响。
《大型网站技术架构》读书笔记二:大型网站架构模式
(图片来自:https://www.cnblogs.com/edisonchou/p/3790225.html)

异步特性:

  • 可以提高系统可用性
  • 加快网站响应速度
  • 消除并发访问高峰。

1.7 冗余

网站需要7×24小时连续运行,但是服务器随时可能出现故障,特比是服务器规模比较大时。 要保证宕机的情况下网址依然可以继续服务,不丢失数据。就需要一定程度的服务器冗余运行,数据冗余备份。
这样当某台服务器宕机时,可以在其他机器上恢复。

数据库除了定期备份存档保存实现冷备份之外,为了保证在线业务高可用,还需要对数据库进行主从分离,实时同步实现热备份

《大型网站技术架构》读书笔记二:大型网站架构模式
(图片来自:https://www.cnblogs.com/edisonchou/p/3790225.html)


1.8 自动化

  • 具体有自动化发布过程
  • 自动化代码管理
  • 自动化测试
  • 自动化安全检测
  • 自动化部署
  • 自动化监控
  • 自动化报警
  • 自动化失效转移
  • 自动化失效恢复等。

1.9 安全

网站在安全架构方面有许多模式:

  • 通过密码和手机校验码进行身份认证;
  • 登录、交易需要对网络通信进行加密;
  • 为了防止机器人程序滥用资源,需要使用验证码进行识别;
  • 对常见的XSS攻击、SQL注入需要编码转换;
  • 垃圾信息需要过滤等。

小结

好的设计绝对不是模仿不是生搬硬套某个模式,而是对问题深刻理解之上的创造与创新,即使是“微创新”,也是让人耳目一新的似曾相识。山寨与创新的最大区别不在于是否抄袭,是否模仿,而在于对问题和需求是否真正理解与把握


参考