Voraussetzungen für RDS für PostgreSQL Schritt 1: Konfigurieren Sie die Pipeline-Rolle Schritt 2: Erstellen Sie die Pipeline Datenkonsistenz Datentypen zuordnen Einschränkungen Empfohlene Alarme CloudWatch

RDS for PostgreSQL

Gehen Sie wie folgt vor, um eine OpenSearch Ingestion-Pipeline mit Amazon RDS for RDS for PostgreSQL zu konfigurieren.

Themen

Voraussetzungen für RDS für PostgreSQL
Schritt 1: Konfigurieren Sie die Pipeline-Rolle
Schritt 2: Erstellen Sie die Pipeline
Datenkonsistenz
Datentypen zuordnen
Einschränkungen
Empfohlene Alarme CloudWatch

Voraussetzungen für RDS für PostgreSQL

Bevor Sie Ihre OpenSearch Ingestion-Pipeline erstellen, führen Sie die folgenden Schritte aus:

Erstellen Sie eine benutzerdefinierte DB-Parametergruppe in Amazon RDS, um die logische Replikation zu konfigurieren.
```
rds.logical_replication=1
```
Weitere Informationen finden Sie unter Durchführen einer logischen Replikation für Amazon RDS for PostgreSQL.
Wählen oder erstellen Sie eine RDS for PostgreSQL-DB-Instance und verknüpfen Sie die in Schritt 1 erstellte Parametergruppe mit der DB-Instance.
Richten Sie die Authentifizierung mit Benutzername und Passwort auf Ihrer Amazon RDS-Instance mithilfe der Passwortverwaltung mit Aurora ein und AWS Secrets Manager. Sie können auch eine username/password Kombination erstellen, indem Sie ein Secrets Manager Manager-Geheimnis erstellen.

Wenn Sie die vollständige Funktion für den ersten Snapshot verwenden, erstellen Sie eine AWS KMS key und eine IAM-Rolle für den Export von Daten von Amazon RDS nach Amazon S3.

Für die IAM-Rolle sollte die folgende Berechtigungsrichtlinie gelten:

Die Rolle sollte außerdem über die folgenden Vertrauensbeziehungen verfügen:

Wählen oder erstellen Sie eine OpenSearch Dienstdomäne oder eine OpenSearch serverlose Sammlung. Weitere Informationen finden Sie unter OpenSearch Dienstdomänen erstellen und Sammlungen erstellen.
Fügen Sie Ihrer Domain eine ressourcenbasierte Richtlinie oder Ihrer Sammlung eine Datenzugriffsrichtlinie hinzu. Diese Zugriffsrichtlinien ermöglichen es OpenSearch Ingestion, Daten von Ihrer Amazon RDS-DB-Instance in Ihre Domain oder Sammlung zu schreiben.

Schritt 1: Konfigurieren Sie die Pipeline-Rolle

Nachdem Sie die Voraussetzungen für Ihre Amazon RDS-Pipeline eingerichtet haben, konfigurieren Sie die Pipeline-Rolle, die in Ihrer Pipeline-Konfiguration verwendet werden soll. Fügen Sie der Rolle außerdem die folgenden Berechtigungen für die Amazon RDS-Quelle hinzu:


{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "allowReadingFromS3Buckets",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:DeleteObject",
        "s3:GetBucketLocation",
        "s3:ListBucket",
        "s3:PutObject"
      ],
      "Resource": [
        "arn:aws:s3:::s3_bucket",
        "arn:aws:s3:::s3_bucket/*"
      ]
    },
 {
      "Sid": "allowNetworkInterfacesActions",
      "Effect": "Allow",
      "Action": [
        "ec2:AttachNetworkInterface",
        "ec2:CreateNetworkInterface",
        "ec2:CreateNetworkInterfacePermission",
        "ec2:DeleteNetworkInterface",
        "ec2:DeleteNetworkInterfacePermission",
        "ec2:DetachNetworkInterface",
        "ec2:DescribeNetworkInterfaces"
      ],
      "Resource": [
        "arn:aws:ec2:*:account-id:network-interface/*",
        "arn:aws:ec2:*:account-id:subnet/*",
        "arn:aws:ec2:*:account-id:security-group/*"
      ]
    },
    {
      "Sid": "allowDescribeEC2",
      "Effect": "Allow",
      "Action": [
        "ec2:Describe*"
      ],
      "Resource": "*"
    },
    {
      "Sid": "allowTagCreation",
      "Effect": "Allow",
      "Action": [
        "ec2:CreateTags"
      ],
      "Resource": "arn:aws:ec2:*:account-id:network-interface/*",
      "Condition": {
        "StringEquals": {
          "aws:RequestTag/OSISManaged": "true"
        }
      }
    },
    {
      "Sid": "AllowDescribeInstances",
      "Effect": "Allow",
      "Action": [
        "rds:DescribeDBInstances"
      ],
      "Resource": [
        "arn:aws:rds:region:account-id:db:*"
      ]
    },
     {
      "Sid": "AllowSnapshots",
      "Effect": "Allow",
      "Action": [
        "rds:DescribeDBSnapshots",
        "rds:CreateDBSnapshot",
        "rds:AddTagsToResource"
      ],
      "Resource": [
        "arn:aws:rds:region:account-id:db:DB-id",
        "arn:aws:rds:region:account-id:snapshot:DB-id*"
      ]
    },
    {
      "Sid": "AllowExport",
      "Effect": "Allow",
      "Action": [
        "rds:StartExportTask"
      ],
      "Resource": [
        "arn:aws:rds:region:account-id:snapshot:DB-id*"
      ]
    },
    {
      "Sid": "AllowDescribeExports",
      "Effect": "Allow",
      "Action": [
        "rds:DescribeExportTasks"
      ],
      "Resource": "*",
      "Condition": {
        "StringEquals": {
          "aws:RequestedRegion": "region",
          "aws:ResourceAccount": "account-id"
        }
      }
    },
    {
      "Sid": "AllowAccessToKmsForExport",
      "Effect": "Allow",
      "Action": [
        "kms:Decrypt",
        "kms:Encrypt",
        "kms:DescribeKey",
        "kms:RetireGrant",
        "kms:CreateGrant",
        "kms:ReEncrypt*",
        "kms:GenerateDataKey*"
      ],
      "Resource": [
        "arn:aws:kms:region:account-id:key/export-key-id"
      ]
    },
    {
      "Sid": "AllowPassingExportRole",
      "Effect": "Allow",
      "Action": "iam:PassRole",
      "Resource": [
        "arn:aws:iam::account-id:role/export-role"
      ]
    },
    {
      "Sid": "SecretsManagerReadAccess",
      "Effect": "Allow",
      "Action": [
        "secretsmanager:GetSecretValue"
      ],
      "Resource": [
        "arn:aws:secretsmanager:*:account-id:secret:*"
      ]
    }
  ]
}

Schritt 2: Erstellen Sie die Pipeline

Konfigurieren Sie eine OpenSearch Ingestion-Pipeline wie die folgende, die eine RDS for PostgreSQL-Instanz als Quelle angibt.


version: "2"
rds-postgres-pipeline:
  source:
    rds:
      db_identifier: "instance-id"
      engine: postgresql
      database: "database-name"
      tables:
        include:
          - "schema1.table1"
          - "schema2.table2"
      s3_bucket: "bucket-name"
      s3_region: "bucket-region"
      s3_prefix: "prefix-name"
      export:
        kms_key_id: "kms-key-id"
        iam_role_arn: "export-role-arn"
      stream: true
      aws:
        sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
        region: "us-east-1"
      authentication:
        username: ${{aws_secrets:secret:username}}
        password: ${{aws_secrets:secret:password}}
  sink:
    - opensearch:
        hosts: ["https://search-mydomain.us-east-1.es.amazonaws.com"]
        index: "${getMetadata(\"table_name\")}"
        index_type: custom
        document_id: "${getMetadata(\"primary_key\")}"
        action: "${getMetadata(\"opensearch_action\")}"
        document_version: "${getMetadata(\"document_version\")}"
        document_version_type: "external"
        aws:
          sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
          region: "us-east-1"
extension:
  aws:
    secrets:
      secret:
        secret_id: "rds-secret-id"
        region: "us-east-1"
        sts_role_arn: "arn:aws:iam::account-id:role/pipeline-role"
        refresh_interval: PT1H

Anmerkung

Sie können einen vorkonfigurierten Amazon RDS-Blueprint verwenden, um diese Pipeline zu erstellen. Weitere Informationen finden Sie unter Mit Blueprints arbeiten.

Um Amazon Aurora als Quelle zu verwenden, müssen Sie den VPC-Zugriff für die Pipeline konfigurieren. Die VPC, die Sie wählen, sollte dieselbe VPC sein, die Ihre Amazon Aurora Aurora-Quelle verwendet. Wählen Sie dann ein oder mehrere Subnetze und eine oder mehrere VPC-Sicherheitsgruppen aus. Beachten Sie, dass die Pipeline Netzwerkzugriff auf eine Aurora MySQL-Datenbank benötigt. Sie sollten daher auch überprüfen, ob Ihr Aurora-Cluster mit einer VPC-Sicherheitsgruppe konfiguriert ist, die eingehenden Datenverkehr von der VPC-Sicherheitsgruppe der Pipeline zum Datenbankport zulässt. Weitere Informationen finden Sie unter Steuern des Zugriffs mit Sicherheitsgruppen.

Wenn Sie die verwenden, AWS Management Console um Ihre Pipeline zu erstellen, müssen Sie Ihre Pipeline auch an Ihre VPC anhängen, um Amazon Aurora als Quelle verwenden zu können. Suchen Sie dazu den Abschnitt Netzwerkkonfiguration, wählen Sie Attach to VPC und wählen Sie Ihr CIDR aus einer der bereitgestellten Standardoptionen oder wählen Sie Ihre eigene aus. Sie können jedes CIDR aus einem privaten Adressraum verwenden, wie in RFC 1918 Best Current Practice definiert.

Um ein benutzerdefiniertes CIDR bereitzustellen, wählen Sie im Dropdownmenü die Option Andere aus. Um eine Kollision der IP-Adressen zwischen OpenSearch Ingestion und Amazon RDS zu vermeiden, stellen Sie sicher, dass sich das Amazon Aurora VPC CIDR vom CIDR für Ingestion unterscheidet. OpenSearch

Weitere Informationen finden Sie unter VPC-Zugriff für eine Pipeline konfigurieren.

Datenkonsistenz

Die Pipeline gewährleistet die Datenkonsistenz, indem sie kontinuierlich Änderungen von der Amazon RDS-Instance abfragt oder empfängt und die entsprechenden Dokumente im OpenSearch Index aktualisiert.

OpenSearch Die Datenaufnahme unterstützt die end-to-end Bestätigung, um die Beständigkeit der Daten sicherzustellen. Wenn eine Pipeline Snapshots oder Streams liest, erstellt sie dynamisch Partitionen für die Parallelverarbeitung. Die Pipeline markiert eine Partition als abgeschlossen, wenn sie nach der Aufnahme aller Datensätze in der OpenSearch Domäne oder Sammlung eine Bestätigung erhält. Wenn Sie Daten in eine OpenSearch serverlose Suchsammlung aufnehmen möchten, können Sie in der Pipeline eine Dokument-ID generieren. Wenn Sie Daten in eine OpenSearch serverlose Zeitreihensammlung aufnehmen möchten, beachten Sie, dass die Pipeline keine Dokument-ID generiert. Daher müssen Sie diese document_id: "${getMetadata(\"primary_key\")}" in Ihrer Pipeline-Senkenkonfiguration weglassen.

Eine OpenSearch Ingestion-Pipeline ordnet auch eingehende Ereignisaktionen entsprechenden Massenindizierungsaktionen zu, um das Ingestieren von Dokumenten zu erleichtern. Dadurch bleiben die Daten konsistent, sodass jede Datenänderung in Amazon RDS mit den entsprechenden Dokumentänderungen in OpenSearch abgeglichen wird.

Datentypen zuordnen

OpenSearch Die Ingestion-Pipeline ordnet PostgreSQL-Datentypen Repräsentationen zu, die für die Nutzung von OpenSearch Dienstdomänen oder Sammlungen geeignet sind. Wenn in keine Zuordnungsvorlage definiert ist OpenSearch, OpenSearch werden die Feldtypen mit einer dynamischen Zuordnung automatisch auf der Grundlage des zuerst gesendeten Dokuments bestimmt. Sie können OpenSearch mithilfe einer Zuordnungsvorlage auch explizit die Feldtypen definieren, die für Sie am besten geeignet sind.

In der folgenden Tabelle sind die RDS-Datentypen für PostgreSQL und die entsprechenden OpenSearch Feldtypen aufgeführt. In der Spalte OpenSearch Standardfeldtyp wird der entsprechende Feldtyp angezeigt, OpenSearch sofern keine explizite Zuordnung definiert ist. In diesem Fall bestimmt OpenSearch automatisch Feldtypen mit dynamischer Zuordnung. Die Spalte OpenSearch „Empfohlener Feldtyp“ ist der entsprechende empfohlene Feldtyp, der explizit in einer Zuordnungsvorlage angegeben werden sollte. Diese Feldtypen sind enger an die Datentypen in RDS for PostgreSQL angepasst und können in der Regel bessere Suchfunktionen ermöglichen, die in verfügbar sind. OpenSearch

RDS für PostgreSQL-Datentyp	Standard-Feldtyp OpenSearch	Empfohlener OpenSearch Feldtyp
smallint	long	short
Ganzzahl	long	integer
bigint	long	long
Dezimalwert	text	doppelt oder Schlüsselwort
numerisch [(p, s)]	text	doppelt oder Schlüsselwort
real	float	float
double precision	float	double
kleine Seriennummer	long	short
serial	long	Ganzzahl
große Seriennummer	long	long
money	object	object
Zeichen variierend (n)	text	text
varchar(n)	text	text
Zeichen (n)	text	text
Zeichen (n)	text	text
bpchar (n)	text	text
bpchar	text	text
text	text	text
enum	text	text
bytea	text	Binary
Zeitstempel [(p)] [ohne Zeitzone]	lang (in Epochen-Millisekunden)	date
Zeitstempel [(p)] mit Zeitzone	lang (in Epochen-Millisekunden)	date
date	lang (in Epochen-Millisekunden)	date
Zeit [(p)] [ohne Zeitzone]	lang (in Epochen-Millisekunden)	date
Zeit [(p)] mit Zeitzone	lang (in Epochen-Millisekunden)	date
Intervall [Felder] [(p)]	Text (Format ISO86 01)	text
boolesch	boolesch	boolesch
point	Text (im WKT-Format)	geo_shape
Linie	Text (im WKT-Format)	geo_shape
Bein	Text (im WKT-Format)	geo_shape
Kiste	Text (im WKT-Format)	geo_shape
Pfad	Text (im WKT-Format)	geo_shape
Polygon	Text (im WKT-Format)	geo_shape
Kreis	object	object
Apfelwein	text	text
inet	text	text
Macaddr	text	text
Macaddr8	text	text
Bit (n)	long	Byte, Short, Integer oder Long (abhängig von der Anzahl der Bits)
bisschen variierend (n)	long	Byte, Short, Integer oder Long (abhängig von der Anzahl der Bits)
json	object	object
jsonb	object	object
Json-Pfad	text	text

Wir empfehlen, dass Sie die Dead-Letter-Warteschlange (DLQ) in Ihrer Ingestion-Pipeline konfigurieren. OpenSearch Wenn Sie die Warteschlange konfiguriert haben, sendet OpenSearch Service alle fehlgeschlagenen Dokumente, die aufgrund von Fehlern bei der dynamischen Zuordnung nicht aufgenommen werden konnten, an die Warteschlange.

Falls automatische Zuordnungen fehlschlagen, können Sie template_type und template_content in Ihrer Pipeline-Konfiguration verwenden, um explizite Zuordnungsregeln zu definieren. Alternativ können Sie Zuordnungsvorlagen direkt in Ihrer Suchdomain oder Sammlung erstellen, bevor Sie die Pipeline starten.

Einschränkungen

Beachten Sie die folgenden Einschränkungen, wenn Sie eine OpenSearch Ingestion-Pipeline für RDS for PostgreSQL einrichten:

Die Integration unterstützt nur eine PostgreSQL-Datenbank pro Pipeline.
Die Integration unterstützt derzeit keine regionsübergreifende Datenaufnahme. Ihre Amazon RDS-Instance und OpenSearch Domain müssen sich in derselben befinden. AWS-Region
Die Integration unterstützt derzeit keine kontoübergreifende Datenaufnahme. Ihre Amazon RDS-Instance und Ihre OpenSearch Ingestion-Pipeline müssen identisch sein. AWS-Konto
Stellen Sie sicher, dass für die Amazon RDS-Instance die Authentifizierung AWS Secrets Manager aktiviert ist. Dies ist der einzige unterstützte Authentifizierungsmechanismus.
Die bestehende Pipeline-Konfiguration kann nicht aktualisiert werden, um Daten aus einer anderen Datenbank oder and/or einer anderen Tabelle aufzunehmen. Um den Datenbank- und/oder Tabellennamen einer Pipeline zu aktualisieren, müssen Sie die Pipeline stoppen und mit einer aktualisierten Konfiguration neu starten oder eine neue Pipeline erstellen.
DDL-Anweisungen (Data Definition Language) werden im Allgemeinen nicht unterstützt. Die Datenkonsistenz wird nicht gewährleistet, wenn:
- Primärschlüssel werden geändert (add/delete/rename).
- Tabellen werden gelöscht/gekürzt.
- Spaltennamen oder Datentypen werden geändert.
Wenn für die zu synchronisierenden PostgreSQL-Tabellen keine Primärschlüssel definiert sind, ist die Datenkonsistenz nicht garantiert. Sie müssen die document_id Option in der Konfiguration anpassen OpenSearch und sie ordnungsgemäß speichern, damit sie synchronisiert updates/deletes werden kann. OpenSearch
RDS-Multi-AZ-DB-Cluster werden nicht unterstützt.
Unterstützte Versionen: PostgreSQL 16 und höher.

Empfohlene Alarme CloudWatch

Die folgenden CloudWatch Messwerte werden für die Überwachung der Leistung Ihrer Ingestion-Pipeline empfohlen. Mithilfe dieser Metriken können Sie die Menge der im Rahmen von Exporten verarbeiteten Daten, die Anzahl der aus Streams verarbeiteten Ereignisse, die Fehler bei der Verarbeitung von Exporten und Stream-Ereignissen sowie die Anzahl der Dokumente ermitteln, die an das Ziel geschrieben wurden. Sie können CloudWatch Alarme einrichten, um eine Aktion auszuführen, wenn eine dieser Metriken für einen bestimmten Zeitraum einen bestimmten Wert überschreitet.

Metrik	Beschreibung
`pipeline-name`.rds.Credentials geändert	Diese Metrik gibt an, wie oft Secrets rotiert werden. AWS
`pipeline-name`.rds. executorRefreshErrors	Diese Metrik weist auf Fehler beim Aktualisieren von AWS Geheimnissen hin.
`pipeline-name`.rds. exportRecordsTotal	Diese Metrik gibt die Anzahl der aus Amazon Aurora exportierten Datensätze an.
`pipeline-name`.rds. exportRecordsProcessed	Diese Metrik gibt die Anzahl der Datensätze an, die von der OpenSearch Ingestion-Pipeline verarbeitet wurden.
`pipeline-name`.rds. exportRecordProcessingFehler	Diese Metrik gibt die Anzahl der Verarbeitungsfehler in einer OpenSearch Ingestion-Pipeline beim Lesen der Daten aus einem Amazon Aurora Aurora-Cluster an.
`pipeline-name`.rds. exportRecordsSuccessInsgesamt	Diese Metrik gibt die Gesamtzahl der erfolgreich verarbeiteten Exportdatensätze an.
`pipeline-name`.rds. exportRecordsFailedInsgesamt	Diese Metrik gibt die Gesamtzahl der Exportdatensätze an, die nicht verarbeitet werden konnten.
`pipeline-name`.RDS.Bytes empfangen	Diese Metrik gibt die Gesamtzahl der Byte an, die von einer Ingestion-Pipeline empfangen wurden. OpenSearch
`pipeline-name`.RDS. Verarbeitete Bytes	Diese Metrik gibt die Gesamtzahl der Byte an, die von einer Ingestion-Pipeline verarbeitet wurden. OpenSearch
`pipeline-name`.rds. streamRecordsSuccessInsgesamt	Diese Metrik gibt die Anzahl der erfolgreich verarbeiteten Datensätze aus dem Stream an.
`pipeline-name`.rds. streamRecordsFailedInsgesamt	Diese Metrik gibt die Gesamtzahl der Datensätze aus dem Stream an, die nicht verarbeitet werden konnten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

RDS for MySQL

Amazon S3