互联网海量视频数据的存储

原文链接：http://www.docin.com/p-86312184.html?docfrom=rrela

一、背景

互联网内容提供方式转变：用户创造内容。视频应用、网络游戏、搜索引擎等互联网衍生业务迅速发展，使得海量数据存储、管理和处理成为当今互联网公司面临的严峻问题。这些信息保存在存储设备上，便是高膨胀的海量数据，表1是不同互联网应用的规模。

互联网海量视频数据的存储

互联网应用海量数据的共性：

1）用户群体大，增长速度快；

2）数据总量大，增长速度快；

3）数据类型多样，大小不一；

4）数据操作模式较为固定，一致性要求较弱，对读写延时有一定要求；

互联网应用的海量数据特性，对数据存储和处理提出了新的挑战，如下：

1）TB级甚至PB级的存储系统，以适应海量数据的需求；

2）良好的扩展性。在不中断服务的情况下，通过简单添置机器或者磁盘存储来扩展系统，满足不断增长的数据和用户群体需求；

3）低时延、高吞吐的存储系统性能；

4）丰富的存储类型，以满足互联网应用中结构化、半结构化甚至非结构数据的存储需求；

5）灵活简单的并行编程模型进行海量数据处理，隐藏分布式环境下数据分布、容错等复杂性；

二、数据存储

1、传统技术：传统关系型数据库

局限性：应用场景局限，着眼于面向结构化的数据，致力于事务处理，要求保持严格的一致性；关系模型束缚对海量数据的快速访问能力；缺乏对非结构化数据的处理能力；扩展性差。

2、新兴数据存储系统：集中式数据管理系统、非集中式数据管理系统

互联网海量视频数据的存储

三、数据处理

快速从海量数据中抽取出关键信息用以提高互联网应用的质量、用户体验等，已经成为互联网企业之间竞争的关键技术问题。同时，大规模数据处理的研究，也是DISC应用研究的关键问题。

并行计算

解决大规模数据处理的方法就是并行计算。将大量数据分散到多个节点上，将计算并行化，利用多机的计算资源，从而加快数据处理的速度。目前，这种并行计算主要分为3大类：一类是广泛应用于高性能计算的MPI技术，一类是以Google、Yahoo为代表的互联网企业兴起的Map/Reduce计算，一类是微软提出的Dryad并行计算模型。

互联网海量视频数据的存储

相关推荐