使用 AWS DataSync 上载数据 - Amazon EMR

使用 AWS DataSync 上载数据

AWS DataSync 是一种在线数据传输服务,它可简化、自动化和加快在本地存储与 AWS 存储服务之间或者在多项 AWS 存储服务之间移动数据的过程。DataSync 支持各种本地存储系统,例如 Hadoop Distributed File System(HDFS)、NAS 文件服务器和自行管理的对象存储。

数据导入到集群的最常见方法是将数据上载到 Amazon S3,然后使用 Amazon EMR 的内置功能将数据加载到集群上。

DataSync 可以帮助您完成以下任务:

  • 将 Hadoop 集群上的 HDFS 复制到 Amazon S3 以实现业务连续性

  • 将 HDFS 复制到 Amazon S3 以填充数据湖

  • 在 Hadoop 集群的 HDFS 与 Amazon S3 之间传输数据以进行分析和处理

要将数据上传到 S3 存储桶,请首先在与本地存储相同的网络中部署一个或多个 DataSync 代理。代理是用于从自行管理位置读取数据或向自行管理位置写入数据的虚拟机 (VM)。然后,您可以在 S3 存储桶所在的 AWS 账户 和 AWS 区域 中激活代理。

激活代理后,您可以为本地存储创建源位置,为 S3 存储桶创建目标位置,还要创建一个任务。任务 由两个位置(源和目标)和一组用于控制任务行为的默认选项组成。

最后,运行 DataSync 任务,将数据从源位置传输到目标位置。

有关更多信息,请参阅 Getting started with AWS DataSync