图形数据库的元数据优势
众所周知,图形数据库代表了新类别的分析能力和机器学习的潜力。 如果你想创建一个知识图,理解购买者的意图,或者创建一个带有页面排名的推荐引擎,图表数据库和他们提供的算法简化了这个过程。 此外,知识图有助于在算法的训练和部署中提供机器学习的洞察力。 我们期望从我们的图形数据库系统中获得这些好处,并且它们能够提供。
然而,还有另一个经常被忽视的好处——元数据管理和模式。 在某些情况下,我注意到一些分析团队几乎没有时间来管理输入数据的模式。 你会得到数据,并被要求根据数据进行分析。 处理模式和潜在的变化可能是一个耗时的挑战。 由于灵活的模式,NoSQL数据库因其易用性而广受欢迎。 然而,图形数据库和三元组的功能也可以简化元数据管理。 通过将所有数据配置成三元组,您可以限制您必须建立刚性模式、复杂的ETL和数据转换、多个表以及复杂、昂贵的JOINs的需求。
图形数据库,特别是RDF三元组存储,处理几乎总是相同的主语-谓语-宾语的数据,也mysql数据库同步 称为三元组。 当然,事实的格式是由RDF规范指定的,但是本质上,您会看到这样的事实:
- 约翰是一个人
- 约翰和苏结婚了
- 约翰买了一辆宝马
- 约翰住在纽约
- 约翰是安德鲁的儿子
在这个系统中,你不需要提前知道你想存储什么和你想运行什么类型的分析。 你可以随时添加任何关于约翰的事实。 如果有任何关于约翰的新数据出现,你可以把它存储在一个三重表中,而不是一个单独的表中。 您不需要创建单独的表和与图形数据库的连接。 你可以从三重商店买到很多东西。
如果您需要更多的复杂性,您可以使用四元组而不是三元组和属性,就像那些在标签属性图上一样。 AnzoGraph支持这两个特性,所以如果你想要60天的免费试用,你可以自己测试。 如果需要,可以使用属性来标识,例如, 当.的时候 约翰买了宝马,或者说他有多喜欢这个品牌。 当您想要管理多个事实列表时,您可以使用四元商店,因为您关于约翰的所有事实可能来自不同的地方。 它的复杂性是你可以利用的,但不是获得价值所必需的。
将此与更严格的解决方案进行对比。 在关系数据库管理系统(RDBMS)中,我必须知道我将为每个人存储什么数据。 知道我将运行哪种分析也是一个好主意,这样查询将运行得更快。 只有这样,我才能设计一个模式并正确地考虑数据库。 与图形数据库不同,在关系数据库管理系统中管理模式是严格且不可原谅的。
NoSQL文件商店也有类似的开放性。 它们将给定实体的所有数据存储在一个文档中。 任何相关数据都存储在该文档中。 一个严格的索引系统可以让分析运行得相对较快。 然而,与关系数据库管理系统一样,它们在存储和执行对“关联”信息的分析方面存在不足。 寻呼机和最短路径算法可能在NoSQL世界中可用,但这需要做更多的工作。
图形数据库做了一些有趣的事情来分析您的数据,但是不要忽视图形数据库的元数据简单性。 为数据科学家提供“数据丰富”平台的克劳福德·劳最近的一项调查表明,数据科学家花60%的时间清理和组织数据。 令人惊讶的是,花在实际分析上的时间如此之少,花在将数据放入正确的桶中的时间又是如此之多。