Prérequis Étape 1 : configurer le rôle du pipeline Étape 2 : Création du pipeline Cohérence des données Types de données de mappage Limites CloudWatch Alarmes recommandées

Utilisation d'un pipeline d' OpenSearch ingestion avec Amazon DocumentDB

Vous pouvez utiliser le plug-in DocumentDB pour diffuser les modifications apportées aux documents, telles que les créations, les mises à jour et les suppressions, vers Amazon Service. OpenSearch Le pipeline prend en charge la capture des données de modification (CDC), si disponible, ou le sondage d'API pour un streaming à grande échelle et à faible latence.

Vous pouvez traiter les données avec ou sans capture initiale complète. Un instantané complet capture l'intégralité d'une collection Amazon DocumentDB et la télécharge sur Amazon S3. Le pipeline envoie ensuite les données à un ou plusieurs OpenSearch index. Après avoir ingéré l'instantané, le pipeline synchronise les modifications en cours pour maintenir la cohérence et finit par rattraper les mises à jour en temps quasi réel.

Si vous disposez déjà d'un instantané complet provenant d'une autre source, ou si vous devez uniquement traiter de nouveaux événements, vous pouvez diffuser sans instantané. Dans ce cas, le pipeline lit directement les flux de modifications d'Amazon DocumentDB sans chargement groupé initial.

Si vous activez le streaming, vous devez activer un flux de modifications sur votre collection Amazon DocumentDB. Toutefois, si vous effectuez uniquement un chargement complet ou une exportation, vous n'avez pas besoin d'un flux de modifications.

Prérequis

Avant de créer votre pipeline OpenSearch d'ingestion, effectuez les étapes suivantes :

Créez un cluster Amazon DocumentDB autorisé à lire les données en suivant les étapes décrites dans Créer un cluster Amazon DocumentDB dans le guide du développeur Amazon DocumentDB. Si vous utilisez l'infrastructure CDC, configurez votre cluster Amazon DocumentDB pour publier des flux de modifications.
Activez le protocole TLS sur votre cluster Amazon DocumentDB.
Configurez un VPC CIDR d'un espace d'adressage privé à utiliser avec Ingestion. OpenSearch
Configurez l'authentification sur votre cluster Amazon DocumentDB avec. AWS Secrets Manager Activez la rotation des secrets en suivant les étapes décrites dans Rotation automatique des mots de passe pour Amazon DocumentDB. Pour plus d'informations, consultez Accès aux bases de données à l'aide du contrôle d'accès et de la sécurité basés sur les rôles dans Amazon DocumentDB.
Si vous utilisez un flux de modifications pour vous abonner aux modifications de données de votre collection Amazon DocumentDB, évitez les pertes de données en prolongeant la période de conservation jusqu'à 7 jours à l'aide du change_stream_log_retention_duration paramètre. Les événements des flux de modifications sont stockés pendant 3 heures, par défaut, après l'enregistrement de l'événement, ce qui n'est pas suffisant pour les collections volumineuses. Pour modifier la période de rétention du flux de modifications, consultez la section Modification de la durée de conservation du journal du flux de modifications.
Créez un domaine OpenSearch de service ou une collection OpenSearch Serverless. Pour plus d’informations, consultez Création de domaines OpenSearch de service et Créer des collections.
Associez une politique basée sur les ressources à votre domaine ou une politique d'accès aux données à votre collection. Ces politiques d'accès permettent à OpenSearch Ingestion d'écrire des données depuis votre cluster Amazon DocumentDB vers votre domaine ou votre collection.

L'exemple de politique d'accès au domaine suivant permet au rôle de pipeline, que vous créez à l'étape suivante, d'écrire des données dans un domaine. Assurez-vous de le mettre à jour resource avec votre propre ARN.
JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "AWS": "arn:aws:iam::444455556666:role/pipeline-role" }, "Action": [ "es:DescribeDomain", "es:ESHttp*" ], "Resource": [ "arn:aws:es:us-east-1:111122223333:domain/domain-name" ] } ] }
Pour créer un rôle IAM doté des autorisations appropriées pour accéder aux données d'écriture de la collection ou du domaine, consultezConfiguration des rôles et des utilisateurs dans Amazon OpenSearch Ingestion.

Étape 1 : configurer le rôle du pipeline

Une fois les prérequis de votre pipeline Amazon DocumentDB définis, configurez le rôle de pipeline que vous souhaitez utiliser dans la configuration de votre pipeline et ajoutez les autorisations Amazon DocumentDB suivantes dans le rôle :

JSON


{
    "Version": "2012-10-17",		 	 	 
    "Statement": [
        {
            "Sid": "allowS3ListObjectAccess",
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::s3-bucket"
            ],
            "Condition": {
                "StringLike": {
                    "s3:prefix": "s3-prefix/*"
                }
            }
        },
        {
            "Sid": "allowReadAndWriteToS3ForExportStream",
            "Effect": "Allow",
            "Action": [
                "s3:PutObject",
                "s3:GetObject",
                "s3:DeleteObject"
            ],
            "Resource": [
                "arn:aws:s3:::s3-bucket/s3-prefix/*"
            ]
        },
        {
            "Sid": "SecretsManagerReadAccess",
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue"
            ],
            "Resource": [
                "arn:aws:secretsmanager:us-east-1:111122223333:secret:secret-name"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "ec2:AttachNetworkInterface",
                "ec2:CreateNetworkInterface",
                "ec2:CreateNetworkInterfacePermission",
                "ec2:DeleteNetworkInterface",
                "ec2:DeleteNetworkInterfacePermission",
                "ec2:DetachNetworkInterface",
                "ec2:DescribeNetworkInterfaces"
            ],
            "Resource": [
                "arn:aws:ec2:*:111122223333:network-interface/*",
                "arn:aws:ec2:*:111122223333:subnet/*",
                "arn:aws:ec2:*:111122223333:security-group/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "ec2:DescribeDhcpOptions",
                "ec2:DescribeRouteTables",
                "ec2:DescribeSecurityGroups",
                "ec2:DescribeSubnets",
                "ec2:DescribeVpcs",
                "ec2:Describe*"
            ],
            "Resource": "*"
        },
        {
            "Effect": "Allow",
            "Action": [
                "ec2:CreateTags"
            ],
            "Resource": "arn:aws:ec2:*:*:network-interface/*",
            "Condition": {
                "StringEquals": {
                    "aws:RequestTag/OSISManaged": "true"
                }
            }
        }
    ]
}

Vous devez fournir les EC2 autorisations Amazon ci-dessus sur le rôle IAM que vous utilisez pour créer le pipeline d' OpenSearch ingestion, car le pipeline utilise ces autorisations pour créer et supprimer une interface réseau dans votre VPC. Le pipeline ne peut accéder au cluster Amazon DocumentDB que via cette interface réseau.

Étape 2 : Création du pipeline

Vous pouvez ensuite configurer un pipeline d' OpenSearch ingestion comme le suivant, qui spécifie Amazon DocumentDB comme source. Notez que pour renseigner le nom de l'index, la getMetadata fonction l'utilise documentdb_collection comme clé de métadonnées. Si vous souhaitez utiliser un autre nom d'index sans la getMetadata méthode, vous pouvez utiliser la configurationindex: "my_index_name".


version: "2"
documentdb-pipeline:
  source:
    documentdb:
      acknowledgments: true
      host: "https://docdb-cluster-id.us-east-1.docdb.amazonaws.com"
      port: 27017
      authentication:
        username: ${aws_secrets:secret:username}
        password: ${aws_secrets:secret:password}
      aws:
      s3_bucket: "bucket-name"
      s3_region: "bucket-region" 
      s3_prefix: "path" #optional path for storing the temporary data
      collections:
        - collection: "dbname.collection"
          export: true
          stream: true
  sink:
  - opensearch:
      hosts: ["https://search-mydomain.us-east-1.es.amazonaws.com"]
      index: "${getMetadata(\"documentdb_collection\")}"
      index_type: custom
      document_id: "${getMetadata(\"primary_key\")}"
      action: "${getMetadata(\"opensearch_action\")}"
      document_version: "${getMetadata(\"document_version\")}"
      document_version_type: "external"
extension:
  aws:
    secrets:
      secret:
        secret_id: "my-docdb-secret"
        region: "us-east-1"
        refresh_interval: PT1H

Vous pouvez utiliser un plan Amazon DocumentDB préconfiguré pour créer ce pipeline. Pour de plus amples informations, veuillez consulter Travailler avec des plans.

Si vous utilisez le AWS Management Console pour créer votre pipeline, vous devez également l'attacher à votre VPC afin d'utiliser Amazon DocumentDB comme source. Pour ce faire, recherchez la section Options du réseau source, cochez la case Attacher au VPC et choisissez votre CIDR parmi l'une des options par défaut fournies. Vous pouvez utiliser n'importe quel CIDR à partir d'un espace d'adressage privé tel que défini dans la RFC 1918 Best Current Practice.

Pour fournir un CIDR personnalisé, sélectionnez Autre dans le menu déroulant. Pour éviter toute collision d'adresses IP entre OpenSearch Ingestion et Amazon DocumentDB, assurez-vous que le CIDR VPC Amazon DocumentDB est différent du CIDR pour l'ingestion. OpenSearch

Pour plus d'informations, consultez Configuration de l'accès VPC pour un pipeline.

Cohérence des données

Le pipeline garantit la cohérence des données en interrogeant ou en recevant en permanence les modifications du cluster Amazon DocumentDB et en mettant à jour les documents correspondants dans l' OpenSearchindex.

OpenSearch L'ingestion prend en charge end-to-end la reconnaissance afin de garantir la durabilité des données. Lorsqu'un pipeline lit des instantanés ou des flux, il crée dynamiquement des partitions pour un traitement parallèle. Le pipeline marque une partition comme terminée lorsqu'il reçoit un accusé de réception après avoir ingéré tous les enregistrements du OpenSearch domaine ou de la collection.

Si vous souhaitez intégrer des données dans une collection de recherche OpenSearch sans serveur, vous pouvez générer un identifiant de document dans le pipeline. Si vous souhaitez intégrer des données dans une collection de séries chronologiques OpenSearch sans serveur, notez que le pipeline ne génère pas d'identifiant de document. Vous devez donc l'omettre document_id: "${getMetadata(\"primary_key\")}" dans la configuration de votre récepteur de pipeline.

Un pipeline d' OpenSearch ingestion fait également correspondre les actions des événements entrants aux actions d'indexation groupées correspondantes pour faciliter l'ingestion de documents. Cela permet de maintenir la cohérence des données, de sorte que chaque modification de données dans Amazon DocumentDB soit conciliée avec les modifications de document correspondantes dans. OpenSearch

Types de données de mappage

OpenSearch Le service mappe dynamiquement les types de données de chaque document entrant au type de données correspondant dans Amazon DocumentDB. Le tableau suivant montre comment OpenSearch Service mappe automatiquement les différents types de données.

Type de données	OpenSearch	Amazon DocumentDB
Entier	OpenSearch mappe automatiquement les valeurs entières d'Amazon DocumentDB en nombres entiers. OpenSearch OpenSearch mappe dynamiquement le champ en fonction du premier document envoyé. Si vous avez plusieurs types de données pour le même attribut dans Amazon DocumentDB, le mappage automatique risque d'échouer. Par exemple, si votre premier document possède un attribut long et qu'un document ultérieur possède le même attribut sous forme de nombre entier, le second document OpenSearch ne parvient pas à être ingéré. Dans ces cas, vous devez fournir un modèle de mappage explicite qui choisit le type de numéro le plus flexible, tel que le suivant : `{ "template": { "mappings": { "properties": { "MixedNumberField": { "type": "float" } } } } }`	Amazon DocumentDB prend en charge les nombres entiers.
Long	OpenSearch mappe automatiquement les valeurs longues d'Amazon DocumentDB en valeurs longues. OpenSearch OpenSearch mappe dynamiquement le champ en fonction du premier document envoyé. Si vous avez plusieurs types de données pour le même attribut dans Amazon DocumentDB, le mappage automatique risque d'échouer. Par exemple, si votre premier document possède un attribut long et qu'un document ultérieur possède le même attribut sous forme de nombre entier, le second document OpenSearch ne parvient pas à être ingéré. Dans ces cas, vous devez fournir un modèle de mappage explicite qui choisit le type de numéro le plus flexible, tel que le suivant : `{ "template": { "mappings": { "properties": { "MixedNumberField": { "type": "float" } } } } }`	Amazon DocumentDB prend en charge les fichiers longs.
Chaîne	OpenSearch mappe automatiquement les valeurs des chaînes sous forme de texte. Dans certaines situations, telles que les valeurs énumérées, vous pouvez mapper le type de mot clé. L'exemple suivant montre comment mapper un attribut Amazon DocumentDB nommé `PartType` à un OpenSearch mot clé. `{ "template": { "mappings": { "properties": { "PartType": { "type": "keyword" } } } } }`	Amazon DocumentDB prend en charge les chaînes de caractères.
Double	OpenSearch mappe automatiquement les valeurs doubles d'Amazon DocumentDB en OpenSearch doubles. OpenSearch mappe dynamiquement le champ en fonction du premier document envoyé. Si vous avez plusieurs types de données pour le même attribut dans Amazon DocumentDB, le mappage automatique risque d'échouer. Par exemple, si votre premier document possède un attribut long et qu'un document ultérieur possède le même attribut sous forme de nombre entier, le second document OpenSearch ne parvient pas à être ingéré. Dans ces cas, vous devez fournir un modèle de mappage explicite qui choisit le type de numéro le plus flexible, tel que le suivant : `{ "template": { "mappings": { "properties": { "MixedNumberField": { "type": "float" } } } } }`	Amazon DocumentDB prend en charge les doublons.
Date	Par défaut, la date correspond à un entier dans OpenSearch. Vous pouvez définir un modèle de mappage personnalisé pour associer une date à une OpenSearch date. `{ "template": { "mappings": { "properties": { "myDateField": { "type": "date", "format": "epoch_second" } } } } }`	Amazon DocumentDB prend en charge les dates.
Horodatage	Par défaut, l'horodatage correspond à un entier dans. OpenSearch Vous pouvez définir un modèle de mappage personnalisé pour associer une date à une OpenSearch date. `{ "template": { "mappings": { "properties": { "myTimestampField": { "type": "date", "format": "epoch_second" } } } } }`	Amazon DocumentDB prend en charge les horodatages.
Booléen	OpenSearch mappe un type booléen Amazon DocumentDB en un type booléen. OpenSearch	Amazon DocumentDB prend en charge les attributs de type booléen.
Décimal	OpenSearch mappe les attributs de mappage Amazon DocumentDB aux champs imbriqués. Les mêmes mappages s'appliquent dans un champ imbriqué. L'exemple suivant fait correspondre une chaîne d'un champ imbriqué à un mot clé saisi dans OpenSearch : `{ "template": { "mappings": { "properties": { "myDecimalField": { "type": "double" } } } } }` Grâce à ce mappage personnalisé, vous pouvez interroger et agréger le champ avec une précision à deux niveaux. La valeur d'origine conserve toute la précision des `_source` propriétés du OpenSearch document. Sans ce mappage, OpenSearch utilise le texte par défaut.	Amazon DocumentDB prend en charge les nombres décimaux.
Expression régulière	Le type regex crée des champs imbriqués. Il s'agit notamment `<myFieldName>.pattern` de et`<myFieldName>.options`.	Amazon DocumentDB prend en charge les expressions régulières.
Données binaires	OpenSearch mappe automatiquement les données binaires Amazon DocumentDB en OpenSearch texte. Vous pouvez fournir un mappage pour les écrire sous forme de champs binaires OpenSearch. L'exemple suivant montre comment mapper un champ Amazon DocumentDB nommé `imageData` à un champ OpenSearch binaire. `{ "template": { "mappings": { "properties": { "imageData": { "type": "binary" } } } } }`	Amazon DocumentDB prend en charge les champs de données binaires.
ObjectId	Les champs dotés d'un type d'ObjectID correspondent aux champs de OpenSearch texte. La valeur sera la représentation sous forme de chaîne de l'ObjectID.	Amazon DocumentDB prend en charge les ObjectID.
Null	OpenSearch peut ingérer des documents avec le type nul Amazon DocumentDB. Elle enregistre la valeur sous forme de valeur nulle dans le document. Il n'existe aucun mappage pour ce type, et ce champ n'est ni indexé ni consultable. Si le même nom d'attribut est utilisé pour un type nul, puis change ultérieurement pour un type différent, tel qu'une chaîne, OpenSearch crée un mappage dynamique pour la première valeur non nulle. Les valeurs suivantes peuvent toujours être des valeurs nulles Amazon DocumentDB.	Amazon DocumentDB prend en charge les champs de type nul.
Non défini	OpenSearch peut ingérer des documents dont le type est indéfini Amazon DocumentDB. Elle enregistre la valeur sous forme de valeur nulle dans le document. Il n'existe aucun mappage pour ce type, et ce champ n'est ni indexé ni consultable. Si le même nom de champ est utilisé pour un type non défini, puis change ultérieurement pour un type différent, tel qu'une chaîne, OpenSearch crée un mappage dynamique pour la première valeur non définie. Les valeurs suivantes peuvent toujours être des valeurs indéfinies Amazon DocumentDB.	Amazon DocumentDB prend en charge les champs de type non définis.
MinKey	OpenSearch peut ingérer des documents de type Amazon DocumentDB MinKey. Elle enregistre la valeur sous forme de valeur nulle dans le document. Il n'existe aucun mappage pour ce type, et ce champ n'est ni indexé ni consultable. Si le même nom de champ est utilisé pour un type MinKey puis change ultérieurement en un autre type, tel qu'une chaîne, OpenSearch crée un mappage dynamique pour la première valeur autre que MinKey. Les valeurs suivantes peuvent toujours être des valeurs MinKey d'Amazon DocumentDB.	Amazon DocumentDB prend en charge les champs de type MinKey.
MaxKey	OpenSearch peut ingérer des documents avec le type Amazon DocumentDB MaxKey. Elle enregistre la valeur sous forme de valeur nulle dans le document. Il n'existe aucun mappage pour ce type, et ce champ n'est ni indexé ni consultable. Si le même nom de champ est utilisé pour un type MaxKey puis change ultérieurement en un autre type, tel qu'une chaîne, OpenSearch crée un mappage dynamique pour la première valeur autre que MaxKey. Les valeurs suivantes peuvent toujours être des valeurs MaxKey d'Amazon DocumentDB.	Amazon DocumentDB prend en charge les champs de type MaxKey.

Nous vous recommandons de configurer la file d'attente des lettres mortes (DLQ) dans votre OpenSearch pipeline d'ingestion. Si vous avez configuré la file d'attente, le OpenSearch service envoie tous les documents défaillants qui ne peuvent pas être ingérés en raison d'échecs de mappage dynamique vers la file d'attente.

En cas d'échec des mappages automatiques, vous pouvez utiliser template_type et template_content dans la configuration de votre pipeline pour définir des règles de mappage explicites. Vous pouvez également créer des modèles de mappage directement dans votre domaine de recherche ou votre collection avant de démarrer le pipeline.

Limites

Tenez compte des limites suivantes lorsque vous configurez un pipeline d' OpenSearch ingestion pour Amazon DocumentDB :

L'intégration d' OpenSearch ingestion avec Amazon DocumentDB ne prend actuellement pas en charge l'ingestion entre régions. Votre cluster Amazon DocumentDB et votre pipeline OpenSearch d'ingestion doivent être identiques. Région AWS
L'intégration d' OpenSearch ingestion avec Amazon DocumentDB ne prend actuellement pas en charge l'ingestion entre comptes. Votre cluster Amazon DocumentDB et votre pipeline OpenSearch d'ingestion doivent être identiques. Compte AWS
Un pipeline d' OpenSearch ingestion ne prend en charge qu'un seul cluster Amazon DocumentDB comme source.
L'intégration d' OpenSearch ingestion avec Amazon DocumentDB prend spécifiquement en charge les clusters basés sur des instances Amazon DocumentDB. Il ne prend pas en charge les clusters élastiques Amazon DocumentDB.
L'intégration d' OpenSearch ingestion est uniquement prise en charge en AWS Secrets Manager tant que mécanisme d'authentification pour votre cluster Amazon DocumentDB.
Vous ne pouvez pas mettre à jour la configuration du pipeline existante pour ingérer des données provenant d'une autre base de données ou d'une autre collection. Vous devez plutôt créer un nouveau pipeline.

CloudWatch Alarmes recommandées

Pour de meilleures performances, nous vous recommandons d'utiliser les CloudWatch alarmes suivantes lorsque vous créez un pipeline d' OpenSearch ingestion pour accéder à un cluster Amazon DocumentDB en tant que source.

CloudWatch Alarme	Description
`<pipeline-name>`.DocumentDB.Informations d'identification modifiées	Cette métrique indique la fréquence à laquelle AWS les secrets font l'objet d'une rotation.
`<pipeline-name>`.documentdb. executorRefreshErrors	Cette métrique indique les échecs d'actualisation AWS des secrets.
`<pipeline-name>`.documentdb. exportRecordsTotal	Cette métrique indique le nombre d'enregistrements exportés depuis Amazon DocumentDB.
`<pipeline-name>`.documentdb. exportRecordsProcessed	Cette métrique indique le nombre d'enregistrements traités par le pipeline OpenSearch d'ingestion.
`<pipeline-name>`.documentdb. exportRecordProcessingErreurs	Cette métrique indique le nombre d'erreurs de traitement dans un pipeline d' OpenSearch ingestion lors de la lecture des données d'un cluster Amazon DocumentDB.
`<pipeline-name>`.documentdb. exportRecordsSuccessTotal	Cette métrique indique le nombre total d'enregistrements d'exportation traités avec succès.
`<pipeline-name>`.documentdb. exportRecordsFailedTotal	Cette métrique indique le nombre total d'enregistrements d'exportation qui n'ont pas pu être traités.
`<pipeline-name>`.Document DB. Octets reçus	Cette métrique indique le nombre total d'octets reçus par un pipeline d' OpenSearch ingestion.
`<pipeline-name>`.DocumentDB.Octets traités	Cette métrique indique le nombre total d'octets traités par un pipeline d' OpenSearch ingestion.
`<pipeline-name>`.documentdb. exportPartitionQueryTotal	Cette métrique indique le total de la partition d'exportation.
`<pipeline-name>`.documentdb. streamRecordsSuccessTotal	Cette métrique indique le nombre d'enregistrements traités avec succès à partir du flux.
`<pipeline-name>`.documentdb. streamRecordsFailedTotal	Cette métrique indique le nombre total d'enregistrements n'ayant pas pu être traités à partir du flux.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Amazon DynamoDB

Confluent Cloud Kafka