大数据架构
大数据架构就像建筑施工中的架构一样,为企业如何管理和分析数据提供了基础结构蓝图。大数据架构将大数据管理流程分为四个基本层级,首先是数据源,然后是数据存储,再是大数据分析,最后是使用层,在这个层级,分析结果以
商业智能
的形式呈现。
大数据分析
大数据分析流程利用专门针对大数据特征构建的数据模型和算法,实现有意义的数据可视化。在麻省理工斯隆管理学院进行的一项
深入调研
中,超过 2,000 名企业领导者介绍了他们的大数据分析情况。不出所料,那些积极制定和支持大数据管理战略的企业取得了最卓越的业务成果。
大数据和 Apache Hadoop
想象一下,10 个一角硬币和 100 个五分硬币混在一个大盒子里。再想象一下,10 个小盒子并排放着,每个盒子中有 10 个五分硬币和 1 个一角硬币。哪种情况更容易找到一角硬币?
Hadoop
的工作原理与这基本相似。Hadoop 是一个开源框架,将很多计算机互联起来,组成一个网络,进行分布式大数据处理。所以,Hadoop 不是使用一台大型计算机存储和处理所有数据,而是将多台计算机聚集到一个几乎无限可扩展的网络中,并行分析数据。该流程通常使用
MapReduce
编程模型,通过编排分布式计算机来协调大数据处理。
数据湖、数据仓库和 NoSQL 数据库
传统 SQL 电子表格式数据库用于存储结构化数据。非结构化和半结构化大数据需要独特的存储和处理模式,因为这些数据不适于建索引和分类。数据湖、数据仓库和 NoSQL 数据库都是用来管理非传统数据集的数据库。数据湖主要存储尚未处理的大量原始数据。数据仓库主要存储已针对特定目的进行处理的数据。NoSQL 数据库则非常灵活,可以根据要处理的数据性质进行调整。这些系统都各有优缺点,许多企业会组合使用不同的数据存储库来满足自身需求。
内存数据库
传统的磁盘数据库是基于 SQL 和关系型数据库技术开发的。虽然这些数据库能够处理大量结构化数据,但并不适合存储和处理非结构化数据。对于
内存数据库
,数据处理和分析完全在 RAM 中进行,无需从基于磁盘的系统中检索数据。而且,内存数据库也是基于分布式架构构建。这意味着,与基于磁盘的单节点数据库模型相比,内存数据库可以并行处理数据,提高速度。