Amazon Redshift Spectrum 入门 - Amazon Redshift

Amazon Redshift Spectrum 入门

在本教程中,您将了解如何使用 Amazon Redshift Spectrum 直接从 Amazon S3 上的文件中查询数据。如果您已经有一个集群和一个 SQL 客户端,您通过极少的设置即可完成本教程。

注意

Redshift Spectrum 查询将产生额外的费用。本教程中运行示例查询的费用极低。有关定价的更多信息,请参阅 Amazon Redshift Spectrum 定价

先决条件

要使用 Redshift Spectrum,您需要一个 Amazon Redshift 集群和一个连接到集群的 SQL 客户端,供您运行 SQL 命令。该集群和 Amazon S3 中的数据文件必须位于同一 AWS 区域中。

有关如何创建 Amazon Redshift 集群的信息,请参阅《Amazon Redshift 入门指南》中的 Amazon Redshift 预置数据仓库入门。有关连接到集群的方法的信息,请参阅《Amazon Redshift 入门指南》中的连接到 Amazon Redshift 数据仓库

在下面的一些示例中,示例数据位于美国东部(弗吉尼亚州北部)(us-east-1),因此您需要一个也位于 us-east-1 的集群。或者,您可以使用 Amazon S3 将以下桶和文件夹中的数据对象复制到集群所在的 AWS 区域的桶中:

  • s3://redshift-downloads/tickit/spectrum/customers/*

  • s3://redshift-downloads/tickit/spectrum/sales_partition/*

  • s3://redshift-downloads/tickit/spectrum/sales/*

  • s3://redshift-downloads/tickit/spectrum/salesevent/*

运行类似于以下内容的 Amazon S3 命令,将位于美国东部(弗吉尼亚州北部)的示例数据复制到您的 AWS 区域。在运行命令之前,请创建桶并在此桶中创建文件夹,以匹配您的 Amazon S3 copy 命令。Amazon S3 copy 命令的输出确认文件已复制到所需 AWS 区域中的 bucket-name

aws s3 cp s3://redshift-downloads/tickit/spectrum/ s3://bucket-name/tickit/spectrum/ --copy-props none --recursive

使用 AWS CloudFormation 的 Redshift Spectrum 入门

作为以下步骤的替代方法,您可以访问 Redshift Spectrum DataLake AWS CloudFormation 模板,以创建一个包含您可查询的 Amazon S3 桶的堆栈。有关更多信息,请参阅 启动您的 AWS CloudFormation 堆栈,然后在 Amazon S3 中查询您的数据

Redshift Spectrum 入门分步指南

要开始使用 Amazon Redshift Spectrum,请执行以下步骤:

第 1 步 为 Amazon Redshift 创建一个 IAM 角色

您的集群需要授权才能访问您在 AWS Glue 或 Amazon Athena 中的外部数据目录以及您在 Amazon S3 中的数据文件。要提供授权,您需要引用附加到集群的 AWS Identity and Access Management (IAM) 角色。有关将角色用于 Amazon Redshift 的更多信息,请参阅使用 IAM 角色授权 COPY 和 UNLOAD 操作

注意

在某些情况下,您可以将 Athena Data Catalog 迁移到 AWS Glue Data Catalog。如果您的集群在支持 AWS Glue 的 AWS 区域内,并且您在 Athena Data Catalog 中拥有 Redshift Spectrum 外部表,则可执行此操作。要将 AWS Glue 数据目录用于 Redshift Spectrum,您可能需要更改您的 IAM 策略。有关更多信息,请参阅《Athena 用户指南》中的升级到 AWS Glue Data Catalog

为 Amazon Redshift 创建角色时,请选择以下方法之一:

要为 Amazon Redshift 创建一个 IAM 角色
  1. 打开 IAM 控制台

  2. 在导航窗格中,选择角色

  3. 选择创建角色

  4. 选择 AWS 服务作为可信实体,然后选择 Redshift 作为使用案例。

  5. 其他 AWS 服务的使用案例下,选择 Redshift - 可自定义,然后选择下一步

  6. 此时显示添加权限策略页面。选择 AmazonS3ReadOnlyAccessAWSGlueConsoleFullAccess(如果使用的是 AWS Glue 数据目录)。或选择 AmazonAthenaFullAccess(如果使用的是 Athena Data Catalog)。选择下一步

    注意

    AmazonS3ReadOnlyAccess 策略为您的集群提供对所有 Amazon S3 桶的只读访问。要仅授予 AWS 示例数据桶的访问权限,请创建新策略并添加以下权限。

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:Get*", "s3:List*" ], "Resource": "arn:aws:s3:::redshift-downloads/*" } ] }
  7. 对于角色名称,输入您角色的名称,例如 myspectrum_role

  8. 检查信息,然后选择 Create role

  9. 在导航窗格中,选择角色。选择新角色的名称以查看摘要,然后将 Role ARN 复制到剪贴板。该值是您刚创建的角色的 Amazon 资源名称 (ARN)。您将在创建用于引用 Amazon S3 上的数据文件的外部表时使用此值。

要使用为 AWS Lake Formation 启用的 AWS Glue Data Catalog 为 Amazon Redshift 创建 IAM 角色
  1. 通过以下网址打开 IAM 控制台:https://console.aws.amazon.com/iam/

  2. 在导航窗格中,选择策略

    如果这是您首次选择 Policies,则会显示 Welcome to Managed Policies 页面。选择开始使用

  3. 选择创建策略

  4. 选择以在 JSON 选项卡上创建策略。

  5. 粘贴在以下 JSON 策略文档中,该策略授予对 Data Catalog 的访问权限,但拒绝对 Lake Formation 的管理员权限。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "RedshiftPolicyForLF", "Effect": "Allow", "Action": [ "glue:*", "lakeformation:GetDataAccess" ], "Resource": "*" } ] }
  6. 完成后,选择审核对策略进行审核。策略验证程序将报告任何语法错误。

  7. 查看策略页面上,为名称输入 myspectrum_policy,以命名您正在创建的策略。输入描述(可选)。查看策略摘要以查看您的策略授予的权限。然后,选择创建策略以保存您的工作。

    在创建策略之后,您可以向您的用户提供访问权限。

要提供访问权限,请为您的用户、组或角色添加权限:

授予对表的 SELECT 权限以在 Lake Formation 数据库中进行查询
  1. 通过 https://console.aws.amazon.com/lakeformation/ 中打开 Lake Formation 控制台。

  2. 在导航窗格中,选择数据湖权限,然后选择授予

  3. 按照《AWS Lake Formation 开发人员指南》使用命名资源方法授予表权限中的说明进行操作。提供以下信息:

    • 对于 IAM 角色,选择您创建的 IAM 角色 myspectrum_role。运行 Amazon Redshift 查询编辑器时,它使用此 IAM 角色来获取数据权限。

      注意

      要授予对启用了 Lake Formation 的 Data Catalog 中的表的 SELECT 权限以进行查询,请执行以下操作:

      • 在 Lake Formation 中注册数据的路径。

      • 在 Lake Formation 中授予用户对该路径的权限。

      • 创建的表可在 Lake Formation 中注册的路径中找到。

  4. 选择授权

重要

作为最佳实践,仅允许通过 Lake Formation 权限访问底层 Amazon S3 对象。要防止未经批准的访问,请删除授予针对 Lake Formation 以外的 Amazon S3 对象的任何权限。如果您在设置 Lake Formation 之前曾访问了 Amazon S3 对象,请删除之前设置的任何 IAM 策略或桶权限。有关更多信息,请参阅将 AWS Glue 数据权限升级到 AWS Lake Formation 模型Lake Formation 权限

步骤 2:将 IAM 角色与集群相关联

现在,您已拥有一个 IAM 角色,该角色授权 Amazon Redshift 为您访问外部 Data Catalog 和 Amazon S3。此时,您必须将该角色与您的 Amazon Redshift 集群关联。

将 IAM 角色与集群关联
  1. 登录 AWS Management Console,然后通过以下网址打开 Amazon Redshift 控制台:https://console.aws.amazon.com/redshiftv2/

  2. 在导航菜单上,选择集群,然后选择要更新的集群的名称。

  3. 对于操作,请选择管理 IAM 角色。这将显示IAM 角色页面。

  4. 选择输入 ARN,然后输入 ARN 或 IAM 角色,或从列表中选择 IAM 角色。然后,选择添加 IAM 角色以将该角色添加到已附加的 IAM 角色列表中。

  5. 选择完成将 IAM 角色与集群关联。将修改集群以完成更改。

步骤 3:创建外部架构和外部表

在外部 schema 中创建外部表。外部 schema 引用了外部数据目录中的数据库并提供了 IAM 角色 ARN(代表您授权您的集群访问 Amazon S3)。您可在 Amazon Athena Data Catalog、AWS Glue Data Catalog 或 Apache Hive 元存储(如 Amazon EMR)中创建外部数据库。在此示例中,您将在创建外部 schema Amazon Redshift 时在 Amazon Athena Data Catalog 中创建外部数据库。有关更多信息,请参阅 Amazon Redshift Spectrum 中的外部架构

创建外部 schema 和外部表
  1. 要创建外部架构,请将以下命令中的 IAM 角色 ARN 替换为您在步骤 1 中创建的角色 ARN。然后在 SQL 客户端中运行该命令。

    create external schema myspectrum_schema from data catalog database 'myspectrum_db' iam_role 'arn:aws:iam::123456789012:role/myspectrum_role' create external database if not exists;
  2. 要创建外部表,请运行以下 CREATE EXTERNAL TABLE 命令。

    注意

    您的集群和 Amazon S3 桶必须位于同一个 AWS 区域中。对于此示例 CREATE EXTERNAL TABLE 命令,包含示例数据的 Amazon S3 桶位于美国东部(弗吉尼亚州北部)AWS 区域中。要查看源数据,请下载 sales_ts.000 文件

    您可以修改此示例以在不同的 AWS 区域中运行。在您所需的 AWS 区域中创建 Amazon S3 桶。使用 Amazon S3 copy 命令复制销售数据。然后,将示例 CREATE EXTERNAL TABLE 命令中的 location 选项更新到您的桶。

    aws s3 cp s3://redshift-downloads/tickit/spectrum/sales/ s3://bucket-name/tickit/spectrum/sales/ --copy-props none --recursive

    Amazon S3 copy 命令的输出确认文件已复制到所需 AWS 区域中的 bucket-name

    copy: s3://redshift-downloads/tickit/spectrum/sales/sales_ts.000 to s3://bucket-name/tickit/spectrum/sales/sales_ts.000
    create external table myspectrum_schema.sales( salesid integer, listid integer, sellerid integer, buyerid integer, eventid integer, dateid smallint, qtysold smallint, pricepaid decimal(8,2), commission decimal(8,2), saletime timestamp) row format delimited fields terminated by '\t' stored as textfile location 's3://redshift-downloads/tickit/spectrum/sales/' table properties ('numRows'='172000');

步骤 4:在 Amazon S3 中查询数据

在创建外部表之后,您可使用用于查询其他 Amazon Redshift 表的同一 SELECT 语句查询外部表。这些 SELECT 语句查询包括联接表、聚合数据和筛选谓词。

要在 Amazon S3 中查询数据
  1. 获取 MYSPECTRUM_SCHEMA.SALES 表中的行数。

    select count(*) from myspectrum_schema.sales;
    count 
    ------
    172462
  2. 作为最佳实践,将较大的事实数据表保存在 Amazon S3 中并将较小的维度表保存在 Amazon Redshift 中。如果您已加载了加载数据中的示例数据,您的数据库中将有一个名为 EVENT 的表。如果没有,请使用以下命令创建 EVENT 表。

    create table event( eventid integer not null distkey, venueid smallint not null, catid smallint not null, dateid smallint not null sortkey, eventname varchar(200), starttime timestamp);
  3. 通过将以下 COPY 命令中的 IAM 角色 ARN 替换为第 1 步 为 Amazon Redshift 创建一个 IAM 角色中创建的角色 ARN 来加载 EVENT 表。您可以选择从 AWS 区域 us-east-1 中的 Amazon S3 桶下载并查看 allevents_pipe.txt 的源数据

    copy event from 's3://redshift-downloads/tickit/allevents_pipe.txt' iam_role 'arn:aws:iam::123456789012:role/myspectrum_role' delimiter '|' timeformat 'YYYY-MM-DD HH:MI:SS' region 'us-east-1';

    以下示例将外部 Amazon S3 表 MYSPECTRUM_SCHEMA.SALES 与本地 Amazon Redshift 表 EVENT 联接,以查找排名前十位的活动的销量总额。

    select top 10 myspectrum_schema.sales.eventid, sum(myspectrum_schema.sales.pricepaid) from myspectrum_schema.sales, event where myspectrum_schema.sales.eventid = event.eventid and myspectrum_schema.sales.pricepaid > 30 group by myspectrum_schema.sales.eventid order by 2 desc;
    eventid | sum     
    --------+---------
        289 | 51846.00
       7895 | 51049.00
       1602 | 50301.00
        851 | 49956.00
       7315 | 49823.00
       6471 | 47997.00
       2118 | 47863.00
        984 | 46780.00
       7851 | 46661.00
       5638 | 46280.00
  4. 查看上一查询的查询计划。注意针对 Amazon S3 上的数据执行的 S3 Seq ScanS3 HashAggregateS3 Query Scan 步骤。

    explain select top 10 myspectrum_schema.sales.eventid, sum(myspectrum_schema.sales.pricepaid) from myspectrum_schema.sales, event where myspectrum_schema.sales.eventid = event.eventid and myspectrum_schema.sales.pricepaid > 30 group by myspectrum_schema.sales.eventid order by 2 desc;
    QUERY PLAN ----------------------------------------------------------------------------- XN Limit (cost=1001055770628.63..1001055770628.65 rows=10 width=31) -> XN Merge (cost=1001055770628.63..1001055770629.13 rows=200 width=31) Merge Key: sum(sales.derived_col2) -> XN Network (cost=1001055770628.63..1001055770629.13 rows=200 width=31) Send to leader -> XN Sort (cost=1001055770628.63..1001055770629.13 rows=200 width=31) Sort Key: sum(sales.derived_col2) -> XN HashAggregate (cost=1055770620.49..1055770620.99 rows=200 width=31) -> XN Hash Join DS_BCAST_INNER (cost=3119.97..1055769620.49 rows=200000 width=31) Hash Cond: ("outer".derived_col1 = "inner".eventid) -> XN S3 Query Scan sales (cost=3010.00..5010.50 rows=200000 width=31) -> S3 HashAggregate (cost=3010.00..3010.50 rows=200000 width=16) -> S3 Seq Scan myspectrum_schema.sales location:"s3://redshift-downloads/tickit/spectrum/sales" format:TEXT (cost=0.00..2150.00 rows=172000 width=16) Filter: (pricepaid > 30.00) -> XN Hash (cost=87.98..87.98 rows=8798 width=4) -> XN Seq Scan on event (cost=0.00..87.98 rows=8798 width=4)

启动您的 AWS CloudFormation 堆栈,然后在 Amazon S3 中查询您的数据

创建 Amazon Redshift 集群并连接到集群后,您可以安装 Redshift Spectrum DataLake AWS CloudFormation 模板,然后查询您的数据。

CloudFormation 安装 Redshift Spectrum Getting Started DataLake 模板,并创建一个包含以下信息的堆栈:

  • 与 Redshift 集群关联的角色 myspectrum_role

  • 外部架构 myspectrum_schema

  • Amazon S3 桶中的外部表 sales

  • 已加载数据的 Redshift 表 event

启动您的 Redshift Spectrum Getting Started DataLake CloudFormation 堆栈:
  1. 选择启动 CFN 堆栈。CloudFormation 控制台打开并选定 DataLake.yml 模板。

    您还可以下载和自定义 Redshift Spectrum Getting Started DataLake CloudFormation CFN 模板,然后打开 CloudFormation 控制台 (https://console.aws.amazon.com/cloudformation),并使用自定义模板创建堆栈。

  2. 选择 Next(下一步)。

  3. 参数下,输入 Amazon Redshift 集群名称、数据库名称和您的数据库用户名。

  4. 选择下一步

    此时将显示堆栈选项。

  5. 选择下一步以接受原定设置。

  6. 检查信息,然后在功能下选择我确认 AWS CloudFormation 可能会创建 IAM 资源

  7. 选择创建堆栈

如果在创建堆栈时发生错误,请参阅以下信息:

  • 查看 CloudFormation 事件选项卡,以获取可以帮助解决错误的信息。

  • 删除 DataLake CloudFormation 堆栈后再重试操作。

  • 确保您已连接到 Amazon Redshift 数据库。

  • 确保您输入了 Amazon Redshift 集群名称、数据库名称和数据库用户名的正确信息。

在 Amazon S3 中查询数据

使用用于查询其它 Amazon Redshift 表的同一 SELECT 语句查询外部表。这些 SELECT 语句查询包括联接表、聚合数据和筛选谓词。

以下查询会返回 myspectrum_schema.sales 外部表中的行数。

select count(*) from myspectrum_schema.sales;
count 
------
172462

将外部表与本地表联接

以下示例将外部表 myspectrum_schema.sales 与本地表 event 联接以查找排名前十的活动的销量总额。

select top 10 myspectrum_schema.sales.eventid, sum(myspectrum_schema.sales.pricepaid) from myspectrum_schema.sales, event where myspectrum_schema.sales.eventid = event.eventid and myspectrum_schema.sales.pricepaid > 30 group by myspectrum_schema.sales.eventid order by 2 desc;
eventid | sum     
--------+---------
    289 | 51846.00
   7895 | 51049.00
   1602 | 50301.00
    851 | 49956.00
   7315 | 49823.00
   6471 | 47997.00
   2118 | 47863.00
    984 | 46780.00
   7851 | 46661.00
   5638 | 46280.00

查看查询计划

查看上一查询的查询计划。注意针对 Amazon S3 上的数据执行的 S3 Seq ScanS3 HashAggregateS3 Query Scan 步骤。

explain select top 10 myspectrum_schema.sales.eventid, sum(myspectrum_schema.sales.pricepaid) from myspectrum_schema.sales, event where myspectrum_schema.sales.eventid = event.eventid and myspectrum_schema.sales.pricepaid > 30 group by myspectrum_schema.sales.eventid order by 2 desc;
QUERY PLAN ----------------------------------------------------------------------------- XN Limit (cost=1001055770628.63..1001055770628.65 rows=10 width=31) -> XN Merge (cost=1001055770628.63..1001055770629.13 rows=200 width=31) Merge Key: sum(sales.derived_col2) -> XN Network (cost=1001055770628.63..1001055770629.13 rows=200 width=31) Send to leader -> XN Sort (cost=1001055770628.63..1001055770629.13 rows=200 width=31) Sort Key: sum(sales.derived_col2) -> XN HashAggregate (cost=1055770620.49..1055770620.99 rows=200 width=31) -> XN Hash Join DS_BCAST_INNER (cost=3119.97..1055769620.49 rows=200000 width=31) Hash Cond: ("outer".derived_col1 = "inner".eventid) -> XN S3 Query Scan sales (cost=3010.00..5010.50 rows=200000 width=31) -> S3 HashAggregate (cost=3010.00..3010.50 rows=200000 width=16) -> S3 Seq Scan spectrum.sales location:"s3://redshift-downloads/tickit/spectrum/sales" format:TEXT (cost=0.00..2150.00 rows=172000 width=16) Filter: (pricepaid > 30.00) -> XN Hash (cost=87.98..87.98 rows=8798 width=4) -> XN Seq Scan on event (cost=0.00..87.98 rows=8798 width=4)