数据仓库系统架构
此部分介绍 Amazon Redshift 数据仓库架构的元素,如下图所示。
客户端应用程序
Amazon Redshift 与各种数据加载和 ETL(提取、转换和加载)工具以及业务情报 (BI) 报告、数据挖掘和分析工具集成。Amazon Redshift 基于开放标准 PostgreSQL,因此,大多数现有 SQL 客户端应用程序仅做最少量的更改。有关 Amazon Redshift SQL 和 PostgreSQL 之间的重要差异的信息,请参阅Amazon Redshift 和 PostgreSQL。
集群
Amazon Redshift 数据仓库的核心基础设施组件是集群。
集群包含一个或多个计算节点。如果集群预置有两个或更多计算节点,则一个额外的领导节点将协调这些计算节点并处理外部通信。您的客户端应用程序仅直接与领导节点交互。计算节点对于外部应用程序是透明的。
领导节点
领导节点管理与客户端程序的通信以及与计算节点的所有通信。它分析和制定执行计划以实施数据库操作,特别是获得复杂查询的结果所需执行的一系列步骤。根据执行计划,领导节点编译节点、将编译后的节点分发给计算节点,并将部分数据分配给每个计算节点。
领导节点仅在查询引用计算节点上存储的表时,才将 SQL 语句分发给计算节点。所有其他查询仅在领导节点上运行。Amazon Redshift 被设计为仅在领导节点上实施特定的 SQL 函数。如果使用这些函数中任一函数的查询引用驻留在计算节点上的表,则此查询将返回一个错误。有关更多信息,请参阅 在领导节点上支持的 SQL 函数。
计算节点
领导节点为执行计划的单个元素编译代码并将代码分配给各个计算节点。计算节点运行编译后的代码,并将中间结果发送回领导节点以便最终聚合。
每个计算节点均拥有自己的专用 CPU 和内存,这都由节点类型决定。当您的工作负载增加时,您可以通过增加节点数和/或升级节点类型来增加集群的计算容量。
Amazon Redshift 提供了多种节点类型以满足您的计算需求。有关每种节点类型的详细信息,请参阅《Amazon Redshift 管理指南》中的 Amazon Redshift 集群。
Redshift 托管存储
数据仓库数据存储在单独的存储层 Redshift 托管存储 (RMS) 中。RMS 可以使用 Amazon S3 存储将您的存储扩展到 PB 级。RMS 可让您独立扩展计算和存储并支付费用,因此您只需根据计算需求确定集群规模。它自动使用基于 SSD 的高性能本地存储作为第 1 层缓存。它还利用诸如数据块温度、数据块使用期限和工作负载模式之类的优化功能来实现高性能,同时在需要时自动将存储扩展到 Amazon S3,无需采取任何操作。
节点切片
一个计算节点分为多个切片。将为每个切片分配节点的内存和磁盘空间的一部分,从而处理分配给节点的工作负载的一部分。领导节点管理向切片分发数据的工作,并将任何查询或其他数据库操作的工作负载分配给切片。然后,切片将并行工作以完成操作。
每个节点的切片数由集群的节点大小决定。有关每个节点大小的切片数的更多信息,请转到《Amazon Redshift 管理指南》中的关于集群和节点。
在创建表时,您可以选择将一个列指定为分配键。在将表与数据一起加载时,会根据为表定义的分配键将行分配给节点切片。选择好的分配键将使 Amazon Redshift 能够使用并行处理来加载数据和高效运行查询。有关选择分配键的信息,请参阅选择最佳的分配方式。
内部网络
Amazon Redshift 利用高带宽连接、紧邻和自定义通信协议来提供领导节点和计算节点之间的速度极快的私有网络通信。计算节点在客户端应用程序绝对无法直接访问的独立的、隔离网络上运行。
数据库
一个集群包含一个或多个数据库。用户数据存储在计算节点上。您的 SQL 客户端与领导节点进行通信,进而通过计算节点协调查询运行。
Amazon Redshift 是一个关系数据库管理系统 (RDBMS),可与其他 RDBMS 应用程序兼容。虽然 Amazon Redshift 提供了与典型 RDBMS 相同的功能(包括在线事务处理 (OLTP) 功能,例如,插入并删除数据),但它已经过优化,可对大型数据集进行高性能的分析和报告。
Amazon Redshift 基于 PostgreSQL。Amazon Redshift 和 PostgreSQL 之间的差别非常大,您在设计和开发数据仓库应用程序时需要注意这一点。有关 Amazon Redshift SQL 与 PostgreSQL 之间的差异的信息,请参阅Amazon Redshift 和 PostgreSQL。