图数据库擅长解决有关大数据集内关系的复杂问题。但当数据量变得非常巨大,或问题需要深度关联分析,又或者必须实时提供答案时,大多数图数据库都会在性能和分析能力上碰壁。 这是因为前几代图数据库缺乏能满足当今速度和规模需求的技术和设计。有的不是以并行性或分布式数据库概念为核心构建的。有的则是在 NoSQL 存储之上创建图视图,虽然可以扩展到巨大的规模,但这一附加层使之丧失了巨大的潜在性能。

如果没有原生图设计,执行多步查询的代价会很高,因此许多 NoSQL 平台只能提供很高的读取性能,而不支持实时更新。原生分布式图可实现深度关联分析,加快数据加载速度以快速构建图,加快图算法执行速度 ,能够实时流式处理更新和插入,能够将实时分析与大规模离线数据处理统一起来,能够纵向扩展和横向扩展分布式应用。

由于关系型数据库太慢太僵化,才掀起了 NoSQL 革命。大数据用户需要大容量、高速度地吸收各种不同结构化的数据,并以最少的麻烦横向扩展物理基础设施。键值存储作为最简单因而也是最快速的 NoSQL 架构应运而生。 键值数据库基本上是一个两列哈希表,每行有一个唯一键 (ID) 和一个与该键关联的值。搜索键域可以非常快速地返回单数据值,比关系型数据库快得多。键值存储也能很好地扩展到非常大型的数据集。

但在键值存储之上设计应用级图是一项代价高昂且复杂的工作,不会产生高性能的结果。虽然键值存储在单键值事务中表现优异,但它们缺少 ACID 特性以及图更新所需的复杂事务功能。因此,在键值存储之上构建图数据库会导致数据不一致、查询结果错误、多步查询速度缓慢而且部署成本高而且机制僵化。

Anna Veronika Dorogush graduated from Lomonosov Moscow State University and Yandex School of Data Analysis. She used to work at ABBYY, Yandex, Microsoft and Google on Machine Learning infrastructure and Machine Learning frameworks. In 2017 she published the open-source library CatBoost, which is now one of top-3 most popular Gradient Boosting libraries, and the top 7-th most used Machine Learning framework in the world according to Kaggle 2021 review.