关于重复数据删除的8个致命误解

现在是时候打破神话,探索有关重复数据删除以存储数据的一些非常真实的事实了。

重复数据删除技术已经存在很长时间了,但是随着越来越多的存储供应商在其硬件和软件产品中添加了此功能,它最近又重新流行了。但是,仅具有重复数据删除功能并不意味着您会很好地使用它。甚至许多经验丰富的存储管理员和架构师都在几种常见的误解下工作。 

无论您是系统架构师,规划人员,采购人员还是IT运营人员,以及您的数据是存储在主磁盘存储,档案存储还是  全闪存存储阵列上,您都需要了解重复数据删除的基础知识和陷阱。 

数据缩减率:保持真实

虽然重复数据删除可用于主存储和辅助存储,但是您可以实现的数据占用空间减少率差异很大。人们经常陷入一种陷阱,即他们假定在重复数据删除存储系统上可以实现的功能与在主阵列上可以实现的功能相同。

重复数据删除是自动的。但是,您可以实现的潜在数据减少率有所不同。例如,如果您需要存储100TB的数据,那么如果您以101的比例购买10TB的设备,或者如果您以21的比例购买50TB的设备,则差异很大。购买前,您必须对可以实现的目标有个好主意。 

在设计备份环境和在主阵列上进行重复数据删除方面花费了大量时间之后,我遇到了有关正确使用的许多误解。如果您在环境中使用该技术,或者参与包含重复数据删除技术的体系结构设计和规模确定,那么本讨论适合您。

了解关于重复数据删除的这八个误解可以帮助您更自信地处理与重复数据删除相关的问题,并更好地估计您的环境应该达到的实际比率。

1.更高的重复数据删除率会成比例地带来更大的数据缩减收益。

如果一个供应商承诺501的重复数据删除率,是否比另一供应商的101索赔要好五倍?重复数据删除就是为了减少容量需求,潜在的容量节省是多少?101的比例可将尺寸缩小90%,而501的比例可将尺寸缩小98%。但这仅相差10%。

通常,重复数据删除次数越多,数据减少的好处就越少,这是收益递减的规律。 

关于重复数据删除的8个致命误解

2.“重复数据删除一词有明确定义。

重复数据删除是通过从数据存储中删除重复的数据项来减少存储的数据量。这可以在对象/文件或物理数据块级别上发生,或者可以是应用程序或内容感知的。大多数产品将重复数据删除与数据压缩结合在一起,以进一步减少数据占用空间。虽然有些供应商将两者结合在一起,但其他供应商则将它们分别称为紧凑compact),或称压缩重复数据删除的一种奇特方式。不幸的是,对重复数据删除没有一个单一的,包罗万象的,被广泛接受的定义。

3.主存储上的重复数据删除率类似于备份设备上可达到的重复数据删除率。

存储供应商使用许多不同的重复数据删除算法。有些比其他的占用更多的CPU资源和更复杂的功能。因此,重复数据删除率差异很大就不足为奇了。

但是,影响重复数据删除率的最大因素是拥有多少相同或相似类型的数据。因此,每周备份中保存相同数据的多个副本的备份设备几乎总是比主阵列显示更高的重复数据删除率。您可能在主阵列上保留了多个数据副本,但是由于这些快照倾向于节省空间,因此阵列将固有地实现一种重复数据删除。这就是为什么主存储重复数据删除率达到51的原因,而备份设备可以达到201甚至401(取决于您保留的副本数)的原因。

4.所有数据类型均相等。

到现在应该很清楚,这显然是错误的。例如,数据流中包含重复模式的数据类型将使其自身具有重复数据删除功能。您可以实现的重复数据删除率取决于几个因素:

  •  数据类型-预压缩,加密,元数据丰富的数据类型显示较低的重复数据删除值。
  •  数据更改率-每日更改率越高,重复数据删除率越低。对于专用备份设备(PBBA)尤其如此。
  • 保留期-保留时间越长,您在PBBA上拥有的副本就越多,从而提高了重复数据删除率。
  • 备份策略 -与增量或差异备份策略相比,每日完全备份策略将产生更高的重复数据删除率,因为许多数据都是冗余数据。

下表概述了数据压缩率。在PBBA上,实际上可以预期有哪些重复数据删除率?请记住,主存储上的比率将大大降低。

关于重复数据删除的8个致命误解

5.对不同的数据类型进行分组会增加重复数据删除率。

从理论上讲,如果将不同的数据磁带混合到一个巨大的重复数据删除池中,则发现相同块或对象的可能性将会增加。但是,在不同的数据类型之间(例如数据库和Exchange电子邮件),发生这种情况的可能性仍然很小。因此,增加重复数据删除池的代价是更复杂,更耗时的哈希比较等。您最好按数据类型分隔重复数据删除池。当然,在给定数据类型内扩展可能会大大提高重复数据删除率。

例如,如果您在单个虚拟机(VM)映像中执行重复数据删除,您将获得一个比率,但是如果您将同一VM映像的多个副本作为目标(例如,通过对该VM进行每日备份到重复数据删除存储),您的比率将会增加。将50VM合并到同一存储中,由于这些VM映像可能非常相似,因此您将进一步提高比率。在单个数据类型中使用重复数据删除池的范围越广越好。

6.您的第一个备份将显示您的预测重复数据删除率。

关于主存储与备份设备的相对重复数据删除率的讨论中出现了这种误解。如果您拥有给定应用程序或虚拟机等数据的一个副本,则会看到一些重复数据删除和压缩。但是只有当您保留非常相似的数据的多个副本(例如同一数据库的多个备份)时,您的比率才会飙升。

下图显示了非常典型的重复数据删除曲线。这是针对SAP HANA环境的,但是大多数应用程序数据遵循相同的曲线。您的初始副本或备份显示了一些重复数据删除的好处,但是大部分节省是由于数据压缩。但是,随着保留更多副本,整个商店的重复数据删除率将增加,如蓝线所示。从第二个副本开始的单个备份(橙色线)快速增长的比率。关于重复数据删除的8个致命误解

7.您不能提高重复数据删除率。

认为没有办法人为地提高重复数据删除率是天真的想法。如果您的目标是达到最高的比率,则应存储尽可能多的数据副本(较长的保留时间)。您在磁盘上的实际存储容量也会增加,但是您的比率将会飙升。

更改备份策略也可以正常工作,如下面的实际示例所示,该示例将每日完整备份与每周备份与每日增量或每日差异备份相结合。在这种情况下,每天的完整备份策略会带来最高的比率。但是,磁盘上使用的实际空间与所有这三种方法相似。因此,当存储供应商承诺极高的重复数据删除率时,请当心,因为可能需要更改备份计划才能实现此目标。

备份时间表

写入逻辑备份数据

重复率存储一次

存储的物理容量

产生的重复数据删除率(逻辑与物理)

每日满

30x 10TB = 300TB

38:1

8TB

38:1

每周满,每天增量

4个10TB = 40TB
26个1TB = 26TB

15:1
3:1

11TB

6:1

每周满,每天差

4个10TB = 40TB
26个3.5TB = 91TB

15:1
12:1

10TB

13:1

8.无法预先确定重复数据删除率。

每个环境都是不同的,因此很难准确预测现实世界中的重复数据删除率。但是,供应商确实提供了主要的存储/备份评估工具,这些工具运行起来很苗条,并且可以洞悉数据类型,保留期等。这些工具通常允许对可实现的重复数据删除率进行某种程度的准确预测。

此外,供应商还可以获得有关其安装基数达到的比率的信息,甚至可以按行业细分。虽然不能保证您会看到相同的好处,但它应该提供一些帮助。如果您的想法还不够,请向供应商寻求保证。在某些情况下,某些供应商确实提供重复数据删除保证。

最后,对数据的代表性子集进行的概念验证将提供更准确的估计。

准备,设置,开始重复数据删除

重复数据删除背后没有任何魔力,但是现在您了解了基础知识,就应该有足够的能力来最大程度地提高重复数据删除技术在存储阵列和设备上的有效性。

让我知道您在数据上实现了哪种比例。