使用 D AWS ata Pipeline - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 D AWS ata Pipeline

Notice

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多

AWS Data Pipelin e 是一项网络服务,可用于自动移动和转换数据。使用 Data Pipeline,您可以创建一个管道来从源账户导出表数据。导出的数据存储在目标账户的亚马逊简单存储服务 (Amazon S3) 存储桶中。目标账户中的 S3 存储桶必须可以从源账户访问。要允许这种跨账户访问,请更新目标 S3 存储桶中的访问控制列表 (ACL)。

在目标账户(账户 B)中创建另一个管道,将数据从 S3 存储桶导入目标账户的表中。

这是将亚马逊 DynamoDB 表备份到 Amazon S3 并从亚马逊 S3 恢复的传统方式, AWS Glue 直到引入了对原生读取 DynamoDB 表的支持。

优点

  • 这是一个无服务器解决方案。

  • 不需要新的代码。

  • AWS Data Pipeline 在幕后使用 Amazon EMR 集群来完成这项工作,因此这种方法既高效又可以处理大型数据集。

缺点

  • 需要其他 AWS 服务(Data Pipeline 和 Amazon S3)。

  • 该过程会消耗源表和所涉及的目标表的预配置吞吐量,因此可能会影响性能和可用性。

  • 这种方法会产生额外的成本,超过了 DynamoDB 读取容量单位 RCUs () 和写入容量单位 () 的成本。WCUs