(Vorschau) Import von Amazon S3 Vectors nach OpenSearch Serverless - OpenSearch Amazon-Dienst

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

(Vorschau) Import von Amazon S3 Vectors nach OpenSearch Serverless

Wichtig

Die Amazon S3 Vectors-Integration mit OpenSearch Service befindet sich in der Vorschauversion und kann sich ändern.

Amazon S3 Vectors bietet den ersten Cloud-Objektspeicher mit nativer Unterstützung für das Speichern und Abfragen von Vektoren. S3 Vectors bietet kostengünstigen, elastischen und dauerhaften Vektorspeicher, der auf der Grundlage von semantischer Bedeutung und Ähnlichkeit abgefragt werden kann. Es bietet Antwortzeiten bei Abfragen in weniger als einer Sekunde und senkt die Kosten für das Hochladen, Speichern und Abfragen von Vektoren um bis zu 90%.

Amazon S3 Vectors führt S3-Vektor-Buckets ein, mit denen Sie Vektordaten speichern, abrufen und abfragen können, ohne eine Infrastruktur bereitstellen zu müssen. In einem Vektor-Bucket können Sie Ihre Vektordaten in Vektorindizes organisieren. Ihr Vektor-Bucket kann mehrere Vektorindizes haben, und jeder Vektorindex kann Millionen von Vektoren enthalten. Weitere Informationen finden Sie unter Arbeiten mit Amazon S3 S3-Vektoren und Vektor-Buckets im Amazon S3 S3-Benutzerhandbuch.

Jeder Vektor besteht aus:

  • Ein einzigartiger Schlüssel

  • Vektordaten

  • Optionale Metadaten im JSON-Format

Vektorindizes unterstützen euklidische Distanzfunktionen und Kosinus-Distanzfunktionen für Ähnlichkeitssuchoperationen.

Anmerkung

Der Hauptvorteil von Vektor-Buckets ist ihre Fähigkeit, riesige Datensätze zu extrem niedrigen Kosten zu speichern und gleichzeitig direkten API-Zugriff für Vektoroperationen zu bieten.

Weitere Informationen zu Amazon S3 S3-Vektor-Buckets, einschließlich deren Erstellung, finden Sie unter Arbeiten mit Amazon S3 S3-Vektoren und Vektor-Buckets im Amazon S3 S3-Benutzerhandbuch. Weitere Informationen zur Integration mit OpenSearch Service, die über die in diesem Thema beschriebenen hinausgehen, finden Sie unter Verwenden von S3 Vectors with Service OpenSearch

Sie können S3 Vectors mit Amazon OpenSearch Service verwenden, um die Kosten für Vektorspeicher zu senken, wenn Abfragen seltener sind, und diese Datensätze dann schnell verschieben, wenn der OpenSearch Bedarf steigt, oder um die Suchfunktionen zu verbessern.

OpenSearch Der Service lässt sich in Amazon S3 Vectors integrieren, um eine verbesserte Leistung und Funktionalität zu bieten, die über das hinausgehen, was Amazon S3 S3-Vektor-Buckets allein bieten. Ziehen Sie diese Integration in Betracht, wenn Sie Folgendes benötigen:

  • Höherer Abfragedurchsatz

  • Suchlatenz in weniger als einer Sekunde

  • Erweiterte Analysefunktionen wie Aggregationen

  • Hybridsuche, bei der Text- und Vektordaten kombiniert werden

Diese Integration ist besonders nützlich, wenn mehrere Anwendungen dieselben Vektordaten mit unterschiedlichen Leistungsanforderungen verwenden. Sie können einige Anwendungen für kostensensible Anwendungsfälle direkt mit Amazon S3 S3-Vektor-Buckets interagieren lassen, während andere die OpenSearch Integration für leistungskritische Operationen nutzen.

Architektur der Integration

Die Integration verwendet Amazon OpenSearch Ingestion (OSI) als Datenpipeline zwischen Amazon S3 S3-Vektorindizes und Amazon OpenSearch Serverless-Vektorsammlungen. OpenSearch Ingestion exportiert automatisch Vektordaten aus Ihrem angegebenen Vektorindex und nimmt sie für leistungsstarke Suchvorgänge in OpenSearch serverlose Vektorsammlungen auf.

Anmerkung

Nach dem Export sind Ihre Daten immer noch im S3-Vektorindex vorhanden. Sie haben zwei Kopien der Daten.

Jeder Vektorindex ist einem entsprechenden Index in der OpenSearch Service-Sammlung zugeordnet. Die Integration:

  • Behält die Abmessungen der Vektoren bei

  • Behält Metadaten bei

  • Optimiert die Datenstruktur für OpenSearch die Vektorsuchfunktionen

Nach der Konfiguration beginnt OpenSearch Ingestion mit dem Datenexport, indem es mithilfe der Amazon S3 ListVectors S3-API Vektoren aus dem angegebenen Vektorindex verwendet. Der Service verarbeitet Vektoren parallel, um die Aufnahmegeschwindigkeit zu optimieren und gleichzeitig die Skalierungsgrenzen von OpenSearch Ingestion und Amazon Serverless zu respektieren. OpenSearch

Während der Aufnahme führt der Service folgende Schritte durch:

  • Transformiert Vektordaten so, dass sie dem erwarteten Format für Service entsprechen OpenSearch

  • Behält wichtige Informationen wie Vektorwerte, Metadaten und Entfernungsmetriken bei

  • Bewältigt Ausfallszenarien mithilfe intelligenter Wiederholungsmechanismen

  • Platziert problematische Datensätze in einem Amazon S3 S3-Bucket, der als Warteschlange für eingehende Nachrichten für spätere Analysen verwendet wird

Die Integration verarbeitet umfangreiche Datensätze effizient, wobei die Leistung von den Vektordimensionen, der Datensatzgröße und den konfigurierten Skalierungsgrenzen abhängt. OSI kann bis zu 16 Worker pro Pipeline skalieren, während OpenSearch Serverless die Kapazität automatisch an die Datenaufnahmeanforderungen anpasst. Standardmäßig wird die maxSearch OpenSearch Recheneinheit (OCU) auf der serverlosen Seite auf 100 OpenSearch erhöht. OpenSearch

Anmerkung

Bei der Integration wird der Kosteneffizienz Priorität eingeräumt, und zwar durch:

  • Automatische Abschaltung der Pipeline nach Abschluss des Exports

  • OpenSearch Skalierung der Sammlung ohne Server

  • Pay-per-use Ressourcenmodell

Erforderliche IAM-Berechtigungen

Die Integration erfordert eine sorgfältige Konfiguration der IAM-Berechtigungen, um eine sichere Kommunikation zwischen Diensten zu ermöglichen. OpenSearch Für die Aufnahme sind Berechtigungen erforderlich, um aus Amazon S3 S3-Vektorindizes zu lesen, in OpenSearch Service-Vektorsammlungen zu schreiben und zugehörige Sicherheitsrichtlinien zu verwalten.

Wenn Sie die Integration mithilfe des weiter unten in diesem Thema beschriebenen Verfahrens aktivieren, können Sie eine der folgenden Optionen für die Rechteverwaltung wählen:

  • Erlauben Sie dem System, automatisch eine Servicerolle mit den erforderlichen Berechtigungen zu erstellen

  • Geben Sie eine bestehende Rolle an, die die Anforderungen erfüllt

Die automatisch erstellte Rolle umfasst Richtlinien für:

  • Zugreifen auf den Amazon S3 S3-Vektorindex APIs

  • Verwaltung von OpenSearch Serviceabholvorgängen

  • Behandlung von Warteschleifenvorgängen bei fehlgeschlagenen Empfangsversuchen

Wenn Sie eine bestehende Rolle angeben möchten, stellen Sie sicher, dass die Rolle über die folgenden IAM-Berechtigungen verfügt:

(Erforderlich): Daten-Pipeline-Berechtigungen zwischen OpenSearch Ingestion und Serverless OpenSearch

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowAPIs", "Effect": "Allow", "Action": [ "aoss:APIAccessAll", "aoss:BatchGetCollection" ], "Resource": [ "arn:aws:aoss:*:account-id:collection/collection-id" ] }, { "Sid": "allowSecurityPolicy", "Effect": "Allow", "Action": [ "aoss:CreateSecurityPolicy", "aoss:UpdateSecurityPolicy", "aoss:GetSecurityPolicy" ], "Resource": "*", "Condition":{ "StringLike":{ "aoss:collection": [ "collection-name" ] }, "StringEquals": { "aws:ResourceAccount": [ "account-id" ] } } } ] }

(Erforderlich): Datenaufnahmeberechtigungen zwischen OpenSearch Ingestion und Amazon S3 S3-Warteschlange für unzustellbare Briefe

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "s3Access", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/*" ] } ] }

(Erforderlich): Datenaufnahmeberechtigungen zwischen OpenSearch Ingestion und Amazon S3 Vectors

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowS3VectorIndexAccess", "Effect": "Allow", "Action": [ "s3vectors:ListVectors", "s3vectors:GetVectors" ], "Resource": [ "arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name" ] } ] }

(Erforderlich, wenn AWS KMS Verschlüsselung aktiviert ist): Entschlüsselungsberechtigungen für die Kommunikation zwischen OpenSearch Ingestion und Amazon S3 Vectors

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowS3VectorDecryptionOfCustomManagedKey", "Effect": "Allow", "Action": [ "kms:Decrypt" ], "Resource": [ "arn:aws:kms:region:account-id:key/key-id" ], "Condition": { "StringEquals": { "kms:ViaService": "s3vectors.region.amazonaws.com", "kms:EncryptionContext:aws:s3vectors:arn": "arn:aws:s3vectors:region:account-id:bucket/bucket-name" } } } ] }

Konfiguration der Amazon S3 Vectors-Integration mit OpenSearch

Gehen Sie wie folgt vor, um die Amazon S3 Vectors-Integration mit OpenSearch Serverless zu konfigurieren.

Anmerkung

Wenn Sie den Prozess der Konfiguration der Integration von der Amazon S3 S3-Konsole aus gestartet haben, indem Sie auf der Vector-Buckets-Seite die OpenSearch Option Exportieren nach ausgewählt haben, sind einige der Schritte im folgenden Verfahren nicht anwendbar, wie im Verfahren angegeben.

So konfigurieren Sie die Amazon S3 Vectors-Integration mit OpenSearch Serverless
  1. Öffnen Sie die Seite S3-Vektorindex in OpenSearch Vektor-Engine importieren in der Amazon OpenSearch Service-Konsole. Die Seite wird automatisch angezeigt, wenn Sie OpenSearch in der Amazon S3 S3-Konsole auf Exportieren nach geklickt haben. Wenn Sie in der OpenSearch Konsole beginnen, wählen Sie in der linken Navigationsleiste Integration und dann S3-Vektorindex importieren.

  2. Wenn Sie in der Amazon S3 S3-Konsole gestartet haben, stellen Sie sicher, dass der Name des Vektorindex und sein Amazon-Ressourcenname (ARN) bereits angegeben sind. Wenn Sie in der OpenSearch Konsole gestartet haben, geben Sie den Index-ARN in das Feld S3 Vector Index ARN ein.

  3. Wählen Sie im Abschnitt Dienstzugriff eine Option aus. Wenn Sie eine bestehende Rolle auswählen, stellen Sie sicher, dass sie über alle erforderlichen Berechtigungen für die Integration verfügt, wie unter beschriebenErforderliche IAM-Berechtigungen.

  4. (Optional) Erweitern Sie Additional settings (Zusätzliche Einstellungen). Für die Option Redundanz aktivieren (aktive Replikate) empfehlen wir, diese Option für Produktionsumgebungen ausgewählt zu lassen. Wenn Sie Ihre erste Sammlung erstellen, instanziiert OpenSearch Serverless zwei OCUs — eine für die Indizierung und eine für die Suche. Um eine hohe Verfügbarkeit zu gewährleisten, wird auch eine Reihe von Standby-Knoten in einer anderen Availability Zone gestartet. Zu Entwicklungs- und Testzwecken können Sie die Einstellung Redundanz aktivieren für eine Sammlung deaktivieren, wodurch die beiden Standby-Replikate entfernt und nur zwei instanziiert werden. OCUs Standardmäßig sind die redundanten aktiven Replikate aktiviert, was bedeutet, dass insgesamt vier für die erste Sammlung in einem Konto instanziiert OCUs werden.

    Wählen Sie unter Kundenverwalteten AWS KMS Schlüssel für Amazon OpenSearch Serverless Vector hinzufügen diese Option, um Daten in der Vektorsammlung mit einem vom Kunden verwalteten Schlüssel zu verschlüsseln. Verwendet standardmäßig ein OpenSearch . Von AWS verwalteter Schlüssel

  5. Wenn Sie diesen Vorgang gestartet haben, indem Sie in der Amazon S3 S3-Konsole auf die OpenSearch Option Exportieren nach geklickt haben, OpenSearch werden im Abschnitt Exportdetails die nächsten Schritte aufgeführt. Wenn Sie bereit sind, wählen Sie Exportieren.

    Wenn Sie diesen Vorgang in der OpenSearch Servicekonsole gestartet haben, OpenSearch werden im Abschnitt Details importieren die nächsten Schritte aufgeführt. Wenn Sie bereit sind, wählen Sie Import.

    OpenSearch öffnet die Verlaufsseite, auf exports/imports der alle Amazon S3 S3-Vektorindizes für OpenSearch serverlose Indizes angezeigt werden.

Nach erfolgreicher Aufnahme stoppt OSI die Pipeline automatisch, um unnötige Kosten zu vermeiden und gleichzeitig die exportierten Daten beizubehalten. OpenSearch Sie können den Integrationsfortschritt anhand von CloudWatch Metriken überwachen und zur Fehlerbehebung auf detaillierte Protokolle zugreifen.

Die OpenSearch Erfassung bleibt aktiv und steht nach Abschluss der ersten Erfassung für Abfragen zur Verfügung. Sie können Folgendes ausführen:

  • Suchen nach Ähnlichkeiten

  • Aggregationen

  • Analytische Operationen