RDS for PostgreSQL - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

RDS for PostgreSQL

Gehen Sie wie folgt vor, um eine OpenSearch Ingestion-Pipeline mit Amazon RDS for RDS for PostgreSQL zu konfigurieren.

Voraussetzungen für RDS für PostgreSQL

Bevor Sie Ihre OpenSearch Ingestion-Pipeline erstellen, führen Sie die folgenden Schritte aus:

  1. Erstellen Sie eine benutzerdefinierte DB-Parametergruppe in Amazon RDS, um die logische Replikation zu konfigurieren.

    rds.logical_replication=1

    Weitere Informationen finden Sie unter Durchführen einer logischen Replikation für Amazon RDS for PostgreSQL.

  2. Wählen oder erstellen Sie eine RDS for PostgreSQL-DB-Instance und verknüpfen Sie die in Schritt 1 erstellte Parametergruppe mit der DB-Instance.

  3. Richten Sie die Authentifizierung mit Benutzername und Passwort auf Ihrer Amazon RDS-Instance mithilfe der Passwortverwaltung mit Aurora ein und AWS Secrets Manager. Sie können auch eine username/password Kombination erstellen, indem Sie ein Secrets Manager Manager-Geheimnis erstellen.

  4. Wenn Sie die vollständige Funktion für den ersten Snapshot verwenden, erstellen Sie eine AWS KMS key und eine IAM-Rolle für den Export von Daten von Amazon RDS nach Amazon S3.

    Für die IAM-Rolle sollte die folgende Berechtigungsrichtlinie gelten:

    JSON
    { "Version": "2012-10-17", "Statement": [ { "Sid": "ExportPolicy", "Effect": "Allow", "Action": [ "s3:PutObject*", "s3:ListBucket", "s3:GetObject*", "s3:DeleteObject*", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::s3-bucket-used-in-pipeline", "arn:aws:s3:::s3-bucket-used-in-pipeline/*" ] } ] }

    Die Rolle sollte außerdem über die folgenden Vertrauensbeziehungen verfügen:

    JSON
    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "export.rds.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
  5. Wählen oder erstellen Sie eine OpenSearch Dienstdomäne oder eine OpenSearch serverlose Sammlung. Weitere Informationen finden Sie unter OpenSearch Dienstdomänen erstellen und Sammlungen erstellen.

  6. Fügen Sie Ihrer Domain eine ressourcenbasierte Richtlinie oder Ihrer Sammlung eine Datenzugriffsrichtlinie hinzu. Diese Zugriffsrichtlinien ermöglichen es OpenSearch Ingestion, Daten von Ihrer Amazon RDS-DB-Instance in Ihre Domain oder Sammlung zu schreiben.

Schritt 1: Konfigurieren Sie die Pipeline-Rolle

Nachdem Sie die Voraussetzungen für Ihre Amazon RDS-Pipeline eingerichtet haben, konfigurieren Sie die Pipeline-Rolle, die in Ihrer Pipeline-Konfiguration verwendet werden soll. Fügen Sie der Rolle außerdem die folgenden Berechtigungen für die Amazon RDS-Quelle hinzu:

{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowReadingFromS3Buckets", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:DeleteObject", "s3:GetBucketLocation", "s3:ListBucket", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::s3_bucket", "arn:aws:s3:::s3_bucket/*" ] }, { "Sid": "allowNetworkInterfacesActions", "Effect": "Allow", "Action": [ "ec2:AttachNetworkInterface", "ec2:CreateNetworkInterface", "ec2:CreateNetworkInterfacePermission", "ec2:DeleteNetworkInterface", "ec2:DeleteNetworkInterfacePermission", "ec2:DetachNetworkInterface", "ec2:DescribeNetworkInterfaces" ], "Resource": [ "arn:aws:ec2:*:account-id:network-interface/*", "arn:aws:ec2:*:account-id:subnet/*", "arn:aws:ec2:*:account-id:security-group/*" ] }, { "Sid": "allowDescribeEC2", "Effect": "Allow", "Action": [ "ec2:Describe*" ], "Resource": "*" }, { "Sid": "allowTagCreation", "Effect": "Allow", "Action": [ "ec2:CreateTags" ], "Resource": "arn:aws:ec2:*:account-id:network-interface/*", "Condition": { "StringEquals": { "aws:RequestTag/OSISManaged": "true" } } }, { "Sid": "AllowDescribeInstances", "Effect": "Allow", "Action": [ "rds:DescribeDBInstances" ], "Resource": [ "arn:aws:rds:region:account-id:db:*" ] }, { "Sid": "AllowSnapshots", "Effect": "Allow", "Action": [ "rds:DescribeDBSnapshots", "rds:CreateDBSnapshot", "rds:AddTagsToResource" ], "Resource": [ "arn:aws:rds:region:account-id:db:DB-id", "arn:aws:rds:region:account-id:snapshot:DB-id*" ] }, { "Sid": "AllowExport", "Effect": "Allow", "Action": [ "rds:StartExportTask" ], "Resource": [ "arn:aws:rds:region:account-id:snapshot:DB-id*" ] }, { "Sid": "AllowDescribeExports", "Effect": "Allow", "Action": [ "rds:DescribeExportTasks" ], "Resource": "*", "Condition": { "StringEquals": { "aws:RequestedRegion": "region", "aws:ResourceAccount": "account-id" } } }, { "Sid": "AllowAccessToKmsForExport", "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:Encrypt", "kms:DescribeKey", "kms:RetireGrant", "kms:CreateGrant", "kms:ReEncrypt*", "kms:GenerateDataKey*" ], "Resource": [ "arn:aws:kms:region:account-id:key/export-key-id" ] }, { "Sid": "AllowPassingExportRole", "Effect": "Allow", "Action": "iam:PassRole", "Resource": [ "arn:aws:iam::account-id:role/export-role" ] }, { "Sid": "SecretsManagerReadAccess", "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue" ], "Resource": [ "arn:aws:secretsmanager:*:account-id:secret:*" ] } ] }

Schritt 2: Erstellen Sie die Pipeline

Konfigurieren Sie eine OpenSearch Ingestion-Pipeline wie die folgende, die eine RDS for PostgreSQL-Instanz als Quelle angibt.

version: "2" rds-postgres-pipeline: source: rds: db_identifier: "instance-id" engine: postgresql database: "database-name" tables: include: - "schema1.table1" - "schema2.table2" s3_bucket: "bucket-name" s3_region: "bucket-region" s3_prefix: "prefix-name" export: kms_key_id: "kms-key-id" iam_role_arn: "export-role-arn" stream: true aws: sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role" region: "us-east-1" authentication: username: ${{aws_secrets:secret:username}} password: ${{aws_secrets:secret:password}} sink: - opensearch: hosts: ["https://search-mydomain.us-east-1.es.amazonaws.com"] index: "${getMetadata(\"table_name\")}" index_type: custom document_id: "${getMetadata(\"primary_key\")}" action: "${getMetadata(\"opensearch_action\")}" document_version: "${getMetadata(\"document_version\")}" document_version_type: "external" aws: sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role" region: "us-east-1" extension: aws: secrets: secret: secret_id: "rds-secret-id" region: "us-east-1" sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role" refresh_interval: PT1H
Anmerkung

Sie können einen vorkonfigurierten Amazon RDS-Blueprint verwenden, um diese Pipeline zu erstellen. Weitere Informationen finden Sie unter Mit Blueprints arbeiten.

Um Amazon Aurora als Quelle zu verwenden, müssen Sie den VPC-Zugriff für die Pipeline konfigurieren. Die VPC, die Sie wählen, sollte dieselbe VPC sein, die Ihre Amazon Aurora Aurora-Quelle verwendet. Wählen Sie dann ein oder mehrere Subnetze und eine oder mehrere VPC-Sicherheitsgruppen aus. Beachten Sie, dass die Pipeline Netzwerkzugriff auf eine Aurora MySQL-Datenbank benötigt. Sie sollten daher auch überprüfen, ob Ihr Aurora-Cluster mit einer VPC-Sicherheitsgruppe konfiguriert ist, die eingehenden Datenverkehr von der VPC-Sicherheitsgruppe der Pipeline zum Datenbankport zulässt. Weitere Informationen finden Sie unter Steuern des Zugriffs mit Sicherheitsgruppen.

Wenn Sie die verwenden, AWS Management Console um Ihre Pipeline zu erstellen, müssen Sie Ihre Pipeline auch an Ihre VPC anhängen, um Amazon Aurora als Quelle verwenden zu können. Suchen Sie dazu den Abschnitt Netzwerkkonfiguration, wählen Sie Attach to VPC und wählen Sie Ihr CIDR aus einer der bereitgestellten Standardoptionen oder wählen Sie Ihre eigene aus. Sie können jedes CIDR aus einem privaten Adressraum verwenden, wie in RFC 1918 Best Current Practice definiert.

Um ein benutzerdefiniertes CIDR bereitzustellen, wählen Sie im Dropdownmenü die Option Andere aus. Um eine Kollision der IP-Adressen zwischen OpenSearch Ingestion und Amazon RDS zu vermeiden, stellen Sie sicher, dass sich das Amazon Aurora VPC CIDR vom CIDR für Ingestion unterscheidet. OpenSearch

Weitere Informationen finden Sie unter VPC-Zugriff für eine Pipeline konfigurieren.

Datenkonsistenz

Die Pipeline gewährleistet die Datenkonsistenz, indem sie kontinuierlich Änderungen von der Amazon RDS-Instance abfragt oder empfängt und die entsprechenden Dokumente im OpenSearch Index aktualisiert.

OpenSearch Die Datenaufnahme unterstützt die end-to-end Bestätigung, um die Beständigkeit der Daten sicherzustellen. Wenn eine Pipeline Snapshots oder Streams liest, erstellt sie dynamisch Partitionen für die Parallelverarbeitung. Die Pipeline markiert eine Partition als abgeschlossen, wenn sie nach der Aufnahme aller Datensätze in der OpenSearch Domäne oder Sammlung eine Bestätigung erhält. Wenn Sie Daten in eine OpenSearch serverlose Suchsammlung aufnehmen möchten, können Sie in der Pipeline eine Dokument-ID generieren. Wenn Sie Daten in eine OpenSearch serverlose Zeitreihensammlung aufnehmen möchten, beachten Sie, dass die Pipeline keine Dokument-ID generiert. Daher müssen Sie diese document_id: "${getMetadata(\"primary_key\")}" in Ihrer Pipeline-Senkenkonfiguration weglassen.

Eine OpenSearch Ingestion-Pipeline ordnet auch eingehende Ereignisaktionen entsprechenden Massenindizierungsaktionen zu, um das Ingestieren von Dokumenten zu erleichtern. Dadurch bleiben die Daten konsistent, sodass jede Datenänderung in Amazon RDS mit den entsprechenden Dokumentänderungen in OpenSearch abgeglichen wird.

Datentypen zuordnen

OpenSearch Die Ingestion-Pipeline ordnet PostgreSQL-Datentypen Repräsentationen zu, die für die Nutzung von OpenSearch Dienstdomänen oder Sammlungen geeignet sind. Wenn in keine Zuordnungsvorlage definiert ist OpenSearch, OpenSearch werden die Feldtypen mit einer dynamischen Zuordnung automatisch auf der Grundlage des zuerst gesendeten Dokuments bestimmt. Sie können OpenSearch mithilfe einer Zuordnungsvorlage auch explizit die Feldtypen definieren, die für Sie am besten geeignet sind.

In der folgenden Tabelle sind die RDS-Datentypen für PostgreSQL und die entsprechenden OpenSearch Feldtypen aufgeführt. In der Spalte OpenSearch Standardfeldtyp wird der entsprechende Feldtyp angezeigt, OpenSearch sofern keine explizite Zuordnung definiert ist. In diesem Fall bestimmt OpenSearch automatisch Feldtypen mit dynamischer Zuordnung. Die Spalte OpenSearch „Empfohlener Feldtyp“ ist der entsprechende empfohlene Feldtyp, der explizit in einer Zuordnungsvorlage angegeben werden sollte. Diese Feldtypen sind enger an die Datentypen in RDS for PostgreSQL angepasst und können in der Regel bessere Suchfunktionen ermöglichen, die in verfügbar sind. OpenSearch

RDS für PostgreSQL-Datentyp Standard-Feldtyp OpenSearch Empfohlener OpenSearch Feldtyp
smallint long short
Ganzzahl long integer
bigint long long
Dezimalwert text doppelt oder Schlüsselwort
numerisch [(p, s)] text doppelt oder Schlüsselwort
real float float
double precision float double
kleine Seriennummer long short
serial long Ganzzahl
große Seriennummer long long
money object object
Zeichen variierend (n) text text
varchar(n) text text
Zeichen (n) text text
Zeichen (n) text text
bpchar (n) text text
bpchar text text
text text text
enum text text
bytea text Binary
Zeitstempel [(p)] [ohne Zeitzone] lang (in Epochen-Millisekunden) date
Zeitstempel [(p)] mit Zeitzone lang (in Epochen-Millisekunden) date
date lang (in Epochen-Millisekunden) date
Zeit [(p)] [ohne Zeitzone] lang (in Epochen-Millisekunden) date
Zeit [(p)] mit Zeitzone lang (in Epochen-Millisekunden) date
Intervall [Felder] [(p)] Text (Format ISO86 01) text
boolesch boolesch boolesch
point Text (im WKT-Format) geo_shape
Linie Text (im WKT-Format) geo_shape
Bein Text (im WKT-Format) geo_shape
Kiste Text (im WKT-Format) geo_shape
Pfad Text (im WKT-Format) geo_shape
Polygon Text (im WKT-Format) geo_shape
Kreis object object
Apfelwein text text
inet text text
Macaddr text text
Macaddr8 text text
Bit (n) long Byte, Short, Integer oder Long (abhängig von der Anzahl der Bits)
bisschen variierend (n) long Byte, Short, Integer oder Long (abhängig von der Anzahl der Bits)
json object object
jsonb object object
Json-Pfad text text

Wir empfehlen, dass Sie die Dead-Letter-Warteschlange (DLQ) in Ihrer Ingestion-Pipeline konfigurieren. OpenSearch Wenn Sie die Warteschlange konfiguriert haben, sendet OpenSearch Service alle fehlgeschlagenen Dokumente, die aufgrund von Fehlern bei der dynamischen Zuordnung nicht aufgenommen werden konnten, an die Warteschlange.

Falls automatische Zuordnungen fehlschlagen, können Sie template_type und template_content in Ihrer Pipeline-Konfiguration verwenden, um explizite Zuordnungsregeln zu definieren. Alternativ können Sie Zuordnungsvorlagen direkt in Ihrer Suchdomain oder Sammlung erstellen, bevor Sie die Pipeline starten.

Einschränkungen

Beachten Sie die folgenden Einschränkungen, wenn Sie eine OpenSearch Ingestion-Pipeline für RDS for PostgreSQL einrichten:

  • Die Integration unterstützt nur eine PostgreSQL-Datenbank pro Pipeline.

  • Die Integration unterstützt derzeit keine regionsübergreifende Datenaufnahme. Ihre Amazon RDS-Instance und OpenSearch Domain müssen sich in derselben befinden. AWS-Region

  • Die Integration unterstützt derzeit keine kontoübergreifende Datenaufnahme. Ihre Amazon RDS-Instance und Ihre OpenSearch Ingestion-Pipeline müssen identisch sein. AWS-Konto

  • Stellen Sie sicher, dass für die Amazon RDS-Instance die Authentifizierung AWS Secrets Manager aktiviert ist. Dies ist der einzige unterstützte Authentifizierungsmechanismus.

  • Die bestehende Pipeline-Konfiguration kann nicht aktualisiert werden, um Daten aus einer anderen Datenbank oder and/or einer anderen Tabelle aufzunehmen. Um den Datenbank- und/oder Tabellennamen einer Pipeline zu aktualisieren, müssen Sie die Pipeline stoppen und mit einer aktualisierten Konfiguration neu starten oder eine neue Pipeline erstellen.

  • DDL-Anweisungen (Data Definition Language) werden im Allgemeinen nicht unterstützt. Die Datenkonsistenz wird nicht gewährleistet, wenn:

    • Primärschlüssel werden geändert (add/delete/rename).

    • Tabellen werden gelöscht/gekürzt.

    • Spaltennamen oder Datentypen werden geändert.

  • Wenn für die zu synchronisierenden PostgreSQL-Tabellen keine Primärschlüssel definiert sind, ist die Datenkonsistenz nicht garantiert. Sie müssen die document_id Option in der Konfiguration anpassen OpenSearch und sie ordnungsgemäß speichern, damit sie synchronisiert updates/deletes werden kann. OpenSearch

  • RDS-Multi-AZ-DB-Cluster werden nicht unterstützt.

  • Unterstützte Versionen: PostgreSQL 16 und höher.

Empfohlene Alarme CloudWatch

Die folgenden CloudWatch Messwerte werden für die Überwachung der Leistung Ihrer Ingestion-Pipeline empfohlen. Mithilfe dieser Metriken können Sie die Menge der im Rahmen von Exporten verarbeiteten Daten, die Anzahl der aus Streams verarbeiteten Ereignisse, die Fehler bei der Verarbeitung von Exporten und Stream-Ereignissen sowie die Anzahl der Dokumente ermitteln, die an das Ziel geschrieben wurden. Sie können CloudWatch Alarme einrichten, um eine Aktion auszuführen, wenn eine dieser Metriken für einen bestimmten Zeitraum einen bestimmten Wert überschreitet.

Metrik Beschreibung
pipeline-name.rds.Credentials geändert Diese Metrik gibt an, wie oft Secrets rotiert werden. AWS
pipeline-name.rds. executorRefreshErrors Diese Metrik weist auf Fehler beim Aktualisieren von AWS Geheimnissen hin.
pipeline-name.rds. exportRecordsTotal Diese Metrik gibt die Anzahl der aus Amazon Aurora exportierten Datensätze an.
pipeline-name.rds. exportRecordsProcessed Diese Metrik gibt die Anzahl der Datensätze an, die von der OpenSearch Ingestion-Pipeline verarbeitet wurden.
pipeline-name.rds. exportRecordProcessingFehler Diese Metrik gibt die Anzahl der Verarbeitungsfehler in einer OpenSearch Ingestion-Pipeline beim Lesen der Daten aus einem Amazon Aurora Aurora-Cluster an.
pipeline-name.rds. exportRecordsSuccessInsgesamt Diese Metrik gibt die Gesamtzahl der erfolgreich verarbeiteten Exportdatensätze an.
pipeline-name.rds. exportRecordsFailedInsgesamt Diese Metrik gibt die Gesamtzahl der Exportdatensätze an, die nicht verarbeitet werden konnten.
pipeline-name.RDS.Bytes empfangen Diese Metrik gibt die Gesamtzahl der Byte an, die von einer Ingestion-Pipeline empfangen wurden. OpenSearch
pipeline-name.RDS. Verarbeitete Bytes Diese Metrik gibt die Gesamtzahl der Byte an, die von einer Ingestion-Pipeline verarbeitet wurden. OpenSearch
pipeline-name.rds. streamRecordsSuccessInsgesamt Diese Metrik gibt die Anzahl der erfolgreich verarbeiteten Datensätze aus dem Stream an.
pipeline-name.rds. streamRecordsFailedInsgesamt Diese Metrik gibt die Gesamtzahl der Datensätze aus dem Stream an, die nicht verarbeitet werden konnten.