将 MongoDB 作为 AWS DMS 源 - AWS Database Migration Service

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 MongoDB 作为 AWS DMS 源

AWS DMS支持 MongoDB 3.x 和 4.0 版本作为数据库源。从AWS DMS 3.4.5 开始,AWS DMS支持 MongoDB 版本 4.2 和 4.4。从 MongoDB 4.2、AWS DMS 3.4.5 及更高版本开始,支持分布式事务。有关 MongoDB 分布式事务的更多信息,请参阅 MongoDB 中的事务

如果您是初次使用 MongoDB,请注意以下关于 MongoDB 数据库的重要概念:

  • MongoDB 中的记录是一个文档,它是由字段和值对构成的数据结构。字段值可以包含其他文档、数组和文档数组。文档大致相当于关系数据库表中的行。

  • MongoDB 中的集合 是一组文档,并且大致相当于关系数据库表。

  • MongoDB 中的数据库是一组集合,大致等同于关系数据库中的架构。

  • 在内部,MongoDB 文档以压缩格式存储为二进制 JSON (BSON) 文件,包含文档中每个字段的类型。每个文档都有唯一的 ID。

AWS DMS使用 MongoDB 作为源代码时支持两种迁移模式:文档模式表格模式。您可以在创建 MongoDB 终端节点或通过从AWS DMS控制台设置元数据模式参数来指定要使用的迁移模式。或者,您可以通过在端点配置面板中选择 _id 的复选标记按钮作为单独的列来创建名_id为的第二列作为主键。

您选择的迁移模式会影响目标数据的结果格式,如下所述。

文档模式

在文档模式下,MongoDB 文档按“原样”迁移,这意味着文档数据将并入目标表中一个名为 _doc 的列中。文档模式是您将 MongoDB 作为源终端节点时的默认设置。

例如,请考虑名为 myCollection 的 MongoDB 集合中的以下文档。

> db.myCollection.find() { "_id" : ObjectId("5a94815f40bd44d1b02bdfe0"), "a" : 1, "b" : 2, "c" : 3 } { "_id" : ObjectId("5a94815f40bd44d1b02bdfe1"), "a" : 4, "b" : 5, "c" : 6 }

在使用文档模式将数据迁移到关系数据库表后,数据结构如下所示。MongoDB 文档中的数据字段将并入 _doc 列。

oid_id _doc
5a94815f40bd44d1b02bdfe0 { "a" : 1, "b" : 2, "c" : 3 }
5a94815f40bd44d1b02bdfe1 { "a" : 4, "b" : 5, "c" : 6 }

您可以选择将额外连接属性 extractDocID 设置为 true,以创建第二个名为 "_id" 的列以作为主键。如果要使用 CDC,请将此参数设置为 true

在文档模式中,AWS DMS 按如下方式管理集合的创建和重命名:

  • 如果您将一个新集合添加到源数据库,则 AWS DMS 将为该集合创建一个新的目标表并复制所有文档。

  • 如果您重命名源数据库上的现有集合,则AWS DMS不会重命名目标表。

如果目标终端节点是 Amazon DocumentDB,请在文档模式下运行迁移。

表模式

在表模式中,AWS DMS 将 MongoDB 文档中的每个顶级字段转换为目标表中的一个列。如果已嵌套字段,则 AWS DMS 会将嵌套值平展到单个列中。随后,AWS DMS 将关键字段和数据类型添加到目标表的列集。

对于每个 MongoDB 文档,AWS DMS 将每个键和类型添加到目标表的列集中。例如,通过使用表模式,AWS DMS 将上一个示例迁移到下表中。

oid_id a b c
5a94815f40bd44d1b02bdfe0 1 2 3
5a94815f40bd44d1b02bdfe1 4 5 6

嵌套值平展到包含键名 (以句点分隔) 的列中。该列的名称是为由句点分隔的平展字段名的联接。例如,AWS DMS 将具有嵌套值字段(如 {"a" : {"b" : {"c": 1}}})的 JSON 文档迁移到名为 a.b.c. 的列中

为了创建目标列,AWS DMS 将扫描指定数量的 MongoDB 文档并创建包含所有字段及其类型的集。随后,AWS DMS 使用此集创建目标表的列。如果您使用 控制台创建或修改 MongoDB 源终端节点,则可指定要扫描的文档的数量。默认值为 1000 个文档。如果您使用AWS CLI,则可以使用额外的连接属性docsToInvestigate

在表模式中,AWS DMS 按如下方式管理文档和集合:

  • 当您将一个文档添加到现有集合时,将复制该文档。如果某些字段在目标中不存在,则不会复制这些字段。

  • 当您更新文档时,复制更新后的文档。如果某些字段在目标中不存在,则不会复制这些字段。

  • 完全支持文档删除。

  • 在 CDC 任务期间,添加新集合不会导致在目标上生成新的表。

  • 不支持重命名集合。

将 MongoDB 作为 AWS DMS 的源时所需的权限

对于使用 MongoDB 源的 AWS DMS 迁移,您可以创建具有根权限的用户账户,也可以仅在要迁移的数据库上创建具有权限的用户。

以下代码创建将作为根账户的用户。

use admin db.createUser( { user: "root", pwd: "password", roles: [ { role: "root", db: "admin" } ] } )

对于 MongoDB 3.x 源代码,以下代码创建对要迁移的数据库具有最低权限的用户。

use database_to_migrate db.createUser( { user: "dms-user", pwd: "password", roles: [ { role: "read", db: "local" }, "read"] })

对于 MongoDB 4.x 源代码,以下代码创建具有最低权限的用户。

{ resource: { db: "", collection: "" }, actions: [ "find", "changeStream" ] }

例如,在 “admin” 数据库中创建以下角色。

use admin db.createRole( { role: "changestreamrole", privileges: [ { resource: { db: "", collection: "" }, actions: [ "find","changeStream" ] } ], roles: [] } )

创建角色后,在要迁移的数据库中创建一个用户。

> use test > db.createUser( { user: "dms-user12345", pwd: "password", roles: [ { role: "changestreamrole", db: "admin" }, "read"] })

为 CDC 配置 MongoDB 副本集

要在 MongoDB 中使用持续复制或 CDC,AWS DMS需要访问 MongoDB 操作日志 (oplog)。要创建 oplog,您需要部署一个副本集 (如果没有副本集)。有关更多信息,请参阅 MongoDB 文档

您可以将 CDC 用于作为源终端节点的 MongoDB 副本集的主要或次要节点。

将独立实例转换为副本集
  1. 使用命令行,连接到 mongo.

    mongo localhost
  2. 停止 mongod 服务。

    service mongod stop
  3. 使用以下命令重新启动 mongod

    mongod --replSet "rs0" --auth -port port_number
  4. 使用以下命令测试与副本集的连接:

    mongo -u root -p password --host rs0/localhost:port_number --authenticationDatabase "admin"

如果您打算执行文档模式迁移,请在创建 MongoDB 终端节点时选择选项 _id as a separate column。通过选择此选项,将创建另一个名为 _id 的列以作为主键。AWS DMS 需要第二列以支持数据操作语言 (DML) 操作。

将 MongoDB 作为 AWS DMS 源时的安全要求

AWSDMS 支持 MongoDB 的两种身份验证方法。这两种身份验证方法用于加密密码,因此它们仅在将 authType 参数设置为 PASSWORD 时使用。

MongoDB 身份验证方法如下:

  • MONGODB-CR — 为了向后兼容

  • SCRAM-SHA-1 — 使用 MongoDB 版本 3.x 和 4.0 时的默认值

如果未指定身份验证方法,AWSDMS 将使用 MongoDB 源版本的默认方法。

分段 MongoDB 集合并parallel 迁移

为了提高迁移任务的性能,MongoDB 源端点在表映射中支持两个parallel 全负载选项。

换句话说,您可以使用自动分段或范围分段与表映射parallel 迁移集合,在 JSON 设置中实现parallel 满载。使用自动分段,您可以指定标准,AWS DMS以便在每个线程中自动分段要迁移的源。通过范围分段,您可以分辨出每个分段AWS DMS的具体范围,让 DMS 在每个线程中迁移。有关这些设置的更多信息,请参阅表和集合设置规则和操作

使用自动分段范围parallel 迁移 MongoDB 数据库

通过为AWS DMS每个线程指定自动分区(分段)数据的标准,可以parallel 迁移文档。特别是,您可以指定每个线程要迁移的文档数量。使用这种方法,AWS DMS尝试优化分段边界,以实现每线程的最大性能。

您可以使用表格映射中的表格设置选项来指定分段标准。

表格设置选项

描述

"type"

(必选)将"partitions-auto" MongoDB 作为源设置为。

"number-of-partitions"

(可选)用于迁移的分区(分段)总数。默认值为 16。

"collection-count-from-metadata"

(可选)如果将此选项设置为true,则AWS DMS使用估计的收集计数来确定分区数量。如果将此选项设置为false,则AWS DMS使用实际收集次数。默认为 true

"max-records-skip-per-page"

(可选)确定每个分区的边界时要一次跳过的记录数。 AWS DMS使用分页跳过方法来确定分区的最小边界。默认值为 10,000。

设置相对较大的值可能会导致游标超时和任务失败。设置相对较低的值会导致每页的操作次数更多,满载速度会变慢。

"batch-size"

(可选)限制一批返回的文档数量。每批都需要往返服务器。如果批量大小为零 (0),则游标使用服务器定义的最大批处理大小。默认值为 0。

以下示例显示了用于自动分段的表映射。

{ "rules": [ { "rule-type": "selection", "rule-id": "1", "rule-name": "1", "object-locator": { "schema-name": "admin", "table-name": "departments" }, "rule-action": "include", "filters": [] }, { "rule-type": "table-settings", "rule-id": "2", "rule-name": "2", "object-locator": { "schema-name": "admin", "table-name": "departments" }, "parallel-load": { "type": "partitions-auto", "number-of-partitions": 5, "collection-count-from-metadata": "true", "max-records-skip-per-page": 1000000, "batch-size": 50000 } } ] }

自动分段有以下限制。每个分段的迁移分别获取集合计数和集_id合的最小值。然后,它使用分页跳过来计算该分段的最小边界。

因此,确保每个集合的最小_id值保持不变,直到计算出集合中的所有段边界。如果在计算段边界期间更改集合的最小_id值,则可能会导致数据丢失或重复行错误。

使用范围分段parallel 迁移 MongoDB 数据库

您可以通过指定线程中每个分段的范围来parallel 迁移文档。使用这种方法,您可以根据您选择AWS DMS的每个线程的文档范围,告诉每个线程中要迁移的特定文档。

下图显示了一个 MongoDB 集合,该集合包含七个项目_id,并且是主键。


                        MongoDB 集合包含七个项目。

要将集合拆分为三个特定的分段AWS DMS以便parallel 迁移,可以在迁移任务中添加表映射规则。以下 JSON 示例中显示了此方法。

{ // Task table mappings: "rules": [ { "rule-type": "selection", "rule-id": "1", "rule-name": "1", "object-locator": { "schema-name": "testdatabase", "table-name": "testtable" }, "rule-action": "include" }, // "selection" :"rule-type" { "rule-type": "table-settings", "rule-id": "2", "rule-name": "2", "object-locator": { "schema-name": "testdatabase", "table-name": "testtable" }, "parallel-load": { "type": "ranges", "columns": [ "_id", "num" ], "boundaries": [ // First segment selects documents with _id less-than-or-equal-to 5f805c97873173399a278d79 // and num less-than-or-equal-to 2. [ "5f805c97873173399a278d79", "2" ], // Second segment selects documents with _id > 5f805c97873173399a278d79 and // _id less-than-or-equal-to 5f805cc5873173399a278d7c and // num > 2 and num less-than-or-equal-to 5. [ "5f805cc5873173399a278d7c", "5" ] // Third segment is implied and selects documents with _id > 5f805cc5873173399a278d7c. ] // :"boundaries" } // :"parallel-load" } // "table-settings" :"rule-type" ] // :"rules" } // :Task table mappings

该表映射定义将源集合分为三个段并parallel 迁移。以下是分段边界。

Data with _id less-than-or-equal-to "5f805c97873173399a278d79" and num less-than-or-equal-to 2 (2 records) Data with _id > "5f805c97873173399a278d79" and num > 2 and _id less-than-or-equal-to "5f805cc5873173399a278d7c" and num less-than-or-equal-to 5 (3 records) Data with _id > "5f805cc5873173399a278d7c" and num > 5 (2 records)

迁移任务完成后,您可以从任务日志中验证表是否已parallel 加载,如以下示例所示。您还可以验证用于从源表中卸载每个分段的 MongoDB 子find句。

[TASK_MANAGER ] I: Start loading segment #1 of 3 of table 'testdatabase'.'testtable' (Id = 1) by subtask 1. Start load timestamp 0005B191D638FE86 (replicationtask_util.c:752) [SOURCE_UNLOAD ] I: Range Segmentation filter for Segment #0 is initialized. (mongodb_unload.c:157) [SOURCE_UNLOAD ] I: Range Segmentation filter for Segment #0 is: { "_id" : { "$lte" : { "$oid" : "5f805c97873173399a278d79" } }, "num" : { "$lte" : { "$numberInt" : "2" } } } (mongodb_unload.c:328) [SOURCE_UNLOAD ] I: Unload finished for segment #1 of segmented table 'testdatabase'.'testtable' (Id = 1). 2 rows sent. [TASK_MANAGER ] I: Start loading segment #1 of 3 of table 'testdatabase'.'testtable' (Id = 1) by subtask 1. Start load timestamp 0005B191D638FE86 (replicationtask_util.c:752) [SOURCE_UNLOAD ] I: Range Segmentation filter for Segment #0 is initialized. (mongodb_unload.c:157) [SOURCE_UNLOAD ] I: Range Segmentation filter for Segment #0 is: { "_id" : { "$lte" : { "$oid" : "5f805c97873173399a278d79" } }, "num" : { "$lte" : { "$numberInt" : "2" } } } (mongodb_unload.c:328) [SOURCE_UNLOAD ] I: Unload finished for segment #1 of segmented table 'testdatabase'.'testtable' (Id = 1). 2 rows sent. [TARGET_LOAD ] I: Load finished for segment #1 of segmented table 'testdatabase'.'testtable' (Id = 1). 1 rows received. 0 rows skipped. Volume transfered 480. [TASK_MANAGER ] I: Load finished for segment #1 of table 'testdatabase'.'testtable' (Id = 1) by subtask 1. 2 records transferred.

目前,AWS DMS支持以下 MongoDB 数据类型作为分段键列:

  • Double

  • 字符串

  • ObjectId

  • 32 位整数

  • 64 位整数

使用 MongoDB 作为源时迁移多个数据库AWS DMS

AWS DMS3.4.5 及更高版本支持在单个任务中迁移所有支持的 MongoDB 版本的多个数据库。如果要迁移多个数据库,请执行以下步骤:

  1. 当您创建 MongoDB 源终端节点时,请执行下列操作之一:

    • 在 DMS 控制台的 “创建端点” 页面上,确保端点配置下的数据库名称为空。

    • 使用AWS CLICreateEndpoint命令为中的DatabaseName参数分配一个空字符串值MongoDBSettings

  2. 对于要从 MongoDB 源迁移的每个数据库,在任务的表映射中将数据库名称指定为架构名称。您可以使用控制台中的引导式输入或直接在 JSON 中执行此操作。有关引导式输入的更多信息,请参阅 从控制台指定表格选择和转换规则。有关 JSON 的更多信息,请参阅选择规则和操作

例如,您可以指定以下 JSON 来迁移三个 MongoDB 数据库。

例 迁移架构中的所有表

以下 JSON 会将源终端节点中的CustomersOrders、和Suppliers数据库中的所有表迁移到目标终端节点。

{ "rules": [ { "rule-type": "selection", "rule-id": "1", "rule-name": "1", "object-locator": { "schema-name": "Customers", "table-name": "%" }, "rule-action": "include", "filters": [] }, { "rule-type": "selection", "rule-id": "2", "rule-name": "2", "object-locator": { "schema-name": "Orders", "table-name": "%" }, "rule-action": "include", "filters": [] }, { "rule-type": "selection", "rule-id": "3", "rule-name": "3", "object-locator": { "schema-name": "Inventory", "table-name": "%" }, "rule-action": "include", "filters": [] } ] }

将 MongoDB 作为 AWS DMS 源时的限制

将 MongoDB 作为 AWS DMS 源时,存在以下限制:

  • _id 选项设置为单独一列时,ID 字符串不能超过 200 个字符。

  • 在表模式下,对象 ID 和数组类型键将转换为具有 oidarray 前缀的列。

    将使用具有前缀的名称在内部引用这些列。如果您在AWS DMS引用这些列时使用转换规则,请确保指定带前缀的列。例如,指定 ${oid__id} 而不是 ${_id},或者指定 ${array__addresses} 而不是 ${_addresses}

  • 集合名称和密钥名称不能包含美元符号 ($)。

  • 表格模式和文档模式有前面描述的限制。

  • 使用自动分段进行parallel 迁移存在前面描述的局限性。

  • MongoDB 不支持源过滤器。

  • AWS DMS不支持嵌套级别大于 97 的文档。

使用 MongoDB 作为源时的端点配置设置AWS DMS

在设置 MongoDB 源终端节点时,您可以使用AWS DMS控制台指定多个终端节点配置设置。

下表描述了使用 MongoDB 数据库作为AWS DMS源时可用的配置设置。

设置(属性) 有效值 默认值和描述

身份验证模式

"none"

"password"

该值"password"提示输入有效的用户名和密码。指定后"none",不使用用户名和密码参数。

身份验证来源

有效的 MongoDB 数据库名称。

要用于验证身份验证凭证的 MongoDB 数据库的名称。默认值为 "admin"

身份验证机制

"default"

"mongodb_cr"

"scram_sha_1"

身份验证机制。 "default" 值为 "scram_sha_1"。当 authType 设为 "no" 时,不使用此设置。

元数据模式

文档和表格

选择文档模式或表模式。

要扫描的文档数 (docsToInvestigate)

大于 0 的正整数。

在表格模式下使用此选项仅用于定义目标表定义。

_id 作为单独的列

复选框中的标记

可选的复选框用于创建名为的第二列_id,该列充当主键。

如果选择 “文档” 作为元数据模式,则可以使用不同的选项。

如果目标终端节点是 DocumentDB,请确保在文档模式下运行迁移。另外,修改源端点并选择 _id 选项作为单独的列。如果您的源 MongoDB 工作负载涉及事务,则这是强制性先决条件。

MongoDB 的源数据类型

将 MongoDB 作为 AWS DMS 源的数据迁移支持大多数 MongoDB 数据类型。在下表中,您可以找到使用 AWS DMS 时支持的 MongoDB 源数据类型以及来自 AWS DMS 数据类型的默认映射。有关 MongoDB 数据类型的更多信息,请参阅 MongoDB 文档中的 BSON 类型

有关如何查看目标中映射的数据类型的信息,请参阅有关所使用的目标终端节点的部分。

有关 AWS DMS 数据类型的其他信息,请参阅DatAWS abase Migration Service 数据类型

MongoDB 数据类型

AWS DMS 数据类型

布尔值

Bool

二进制

BLOB

日期

日期

时间戳

日期

Int

INT4

长整型

INT8

Double

REAL8

字符串 (UTF-8)

CLOB

数组

CLOB

OID

字符串

REGEX

CLOB

CODE

CLOB