使用 AWS DataSync 将现有文件迁移到 FSx for Windows File Server - Amazon FSx for Windows File Server

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 AWS DataSync 将现有文件迁移到 FSx for Windows File Server

我们建议使用AWS DataSync在 FSx for Windows File Server 文件系统之间传输数据。 DataSync 是一项数据传输服务,可通过 Internet 或,简化、自动化和加速本地存储系统与其他AWS存储服务之间的数据移动和复制。AWS Direct Connect DataSync 可以传输您的文件系统数据和元数据,例如所有权、时间戳和访问权限。

DataSync 支持复制 NTFS 访问控制列表 (ACL),还支持复制文件审核控制信息,也称为 NTFS 系统访问控制列表 (SACL),管理员使用这些信息来控制用户尝试访问文件的审核记录。

您可以使用 DataSync 在两个 FSx for Windows File Server 文件系统之间传输文件,也可以使用AWS 区域不同的AWS或帐户将数据移动到文件系统。你可以将适用于 Window DataSync s File Server 文件系统的 FSx 用于其他任务。例如,您可以执行一次性数据迁移、定期摄取分布式工作负载的数据以及按计划复制以实现数据保护与恢复。

在 AWS DataSync 中,FSx for Windows File Server 的位置是 FSx for Windows File Server 的端点。可以在 FSx for Windows File Server 的位置和其他文件系统的位置之间传输文件。有关更多信息,请参阅《AWS DataSync 用户指南》中的使用位置

DataSync 使用服务器消息块 (SMB) 协议访问你的 FSx for Windows File Server。它使用您在 AWS DataSync 控制台或 AWS CLI 中配置的用户名和密码来进行身份验证。

先决条件

要将数据迁移到你的 Amazon FSx for Windows File Server 设置中,你需要一台符合要求 DataSync 的服务器和网络。要了解更多信息,请参阅《AWS DataSync用户指南》 DataSync中的要求

如果要执行大型数据迁移或迁移涉及许多小文件,我们建议使用具有 SSD 存储类型的 Amazon FSx 文件系统。这是因为 DataSync 任务涉及文件元数据的扫描,这可能会耗尽 HDD 文件系统的磁盘 IOPS 限制,从而导致长时间迁移和文件系统性能影响。有关更多信息,请参阅:将现有文件存储迁移到 FSx for Windows File Server 的最佳实践

如果您的数据集主要由小文件组成,文件数以百万计,或者您的可用网络带宽超过单个 DataSync 任务消耗的带宽,则还可以使用横向扩展架构来加速数据传输。有关更多信息,请参阅:How to accelerate your data transfers with AWS DataSync scale out architectures

可以使用 FSx 性能指标监控文件系统的磁盘 I/O 利用率。

使用迁移文件的基本步骤 DataSync

要使用将文件从源位置传输到目标位置 DataSync,请执行以下基本步骤:

  • 在您的环境中下载并部署代理,然后激活。

  • 创建并配置源和目标位置。

  • 创建并配置任务。

  • 运行任务,将文件从源传输到目标。

要了解如何将文件从现有本地文件系统传输到 FSx for Windows File Server,请参阅《AWS DataSync 用户指南》中的在行管理的存储和 AWS 之间传输数据为 SMB 创建位置为 Amazon FSx for Windows File Server 创建位置

要了解如何将文件从现有云端文件系统传输到 FSx for Windows File Server,请参阅《AWS DataSync 用户指南》中的将您的代理部署为 Amazon EC2 实例

在两个 Amazon FSx 文件系统之间迁移

您可以使用 DataSync 在两个 Amazon FSx 文件系统之间迁移数据。如果您需要将工作负载从现有文件系统移至具有不同配置的新文件系统(例如从单可用区配置移至多可用区配置),这会很有帮助。您还可以使用 DataSync 在两个文件系统之间分配工作负载。

以下是迁移过程的示例概述:

  1. 为源文件系统和目标文件系统创建 DataSync 位置。请注意,源和目标必须属于同一个 Active Directory(AD)域,或者各自的域之间必须具有 AD 信任关系。

  2. 创建并配置 DataSync 任务以将数据从源传输到目标。可以将该任务作为一次性实例运行,也可以将该任务设置为按配置的计划自动运行。

  3. 任务成功完成后,目标文件系统中的数据将是源文件系统的精确副本。请注意,您需要暂时暂停源文件系统上的任何写入活动或文件更新才能完成该任务。然后,可以割接到目标文件系统并删除源文件系统。

在从生产文件系统迁移之前,可以在从最近备份还原的文件系统上测试迁移过程。这使您能够估计数据传输过程需要多长时间,并提前对 DataSync 错误进行故障排除。

为了最大限度地缩短直接转换时间,您可以提前运行 DataSync 任务,将大部分数据从源文件系统移动到目标文件系统。停止传输到源文件系统的流量后,可以运行最后一次任务传输,以同步自停止流量以来新更新的任何数据,然后割接到目标文件系统。

您可以将 DataSync 任务配置为仅在某些目录中运行,或者包含或排除某些路径。如果并行运行多个任务,或者要迁移部分数据,这会非常有用。

可以在目标文件系统上创建与源文件系统的 DNS 名称相同的 DNS 别名。这样,您的终端用户和应用程序可以继续使用源文件系统的 DNS 名称访问文件数据。有关如何设置 DNS 别名的更多信息,请参阅:演练 5:使用 DNS 别名访问文件系统

在执行这种类型的迁移时,我们建议执行以下操作:

  • 安排迁移,避免任何文件系统备份、每周维护时段和 Data Deduplication 作业。具体而言,如果 Data Deduplication GarbageCollection 作业与您的计划迁移同时执行,我们建议禁用该作业。

  • 对源文件系统和目标文件系统使用 SSD 存储类型。可以通过从备份还原,在 HDD 和 SSD 存储类型之间切换。有关更多信息,请参阅:将现有文件存储迁移到 FSx for Windows File Server

  • 为源文件系统和目标文件系统配置足够的吞吐能力,以便能够处理需要传输的数据量。在 DataSync 任务处理过程中,监控源文件系统和目标文件系统的性能利用率。有关更多信息,请参阅:使用 Amazon 监控指标 CloudWatch

  • 设置DataSync 监控以帮助您了解正在进行的任务的进度。如果您遇到任何错误,也可以向 Amazon CloudWatch Logs 组发送 DataSync 日志,以帮助您调试任务。