数据分析的数据架构知识详解(三)

数据分析的数据架构知识详解(三)

数据分析的架构是有很多的,比如传统的大数据架构、流式架构、lambda架构、Kappa架构、Unifield架构。但是大家对于这些架构都不是很熟悉的,并且各个数据分析的架构都是有很多优点和缺点的,下面就由小编为大家解答一下这个问题。

首先说说传统大数据架构。我们叫传统大数据架构,是因为其定位是为了解决传统BI的问题。简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题。可以看到,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。传统的大数据架构的优点是简单、易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。缺点就是对于大数据来说,没有完整的架构,因此对业务支撑的灵活度不够,所以对于存在大量报表或复杂钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。这种架构适用于数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

然后说说流式架构。在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。这种架构的优点就是没有臃肿的ETL过程,数据的实效性非常高。缺点就是对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

最后给大家说说Lambda架构。Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性。而离线则以批处理方式为主,保障了最终一致性。这个架构的优点就是既有实时又有离线,对于数据分析场景涵盖的非常到位。缺点就是离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量冗余和重复的模块存在。

通过这篇文章我们不难发现数据分析行业的知识是比较高深的,由于篇幅原因小编就给大家介绍到这里了,我们会在后面的文章中给大家介绍剩下的Kappa架构、Unifield架构,希望这篇文章能够给大家带来帮助。