(Anteprima) Importazione da Amazon S3 Vectors a Serverless OpenSearch - OpenSearch Servizio Amazon

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

(Anteprima) Importazione da Amazon S3 Vectors a Serverless OpenSearch

Importante

L'integrazione di Amazon S3 Vectors con OpenSearch Service è in versione di anteprima ed è soggetta a modifiche.

Amazon S3 Vectors offre il primo archivio di oggetti nel cloud con supporto nativo per archiviare e interrogare vettori. S3 Vectors offre uno storage vettoriale economico, elastico e durevole che può essere interrogato in base al significato e alla somiglianza semantici. Offre tempi di risposta alle query inferiori al secondo e costi fino al 90% inferiori per il caricamento, l'archiviazione e l'interrogazione dei vettori.

Amazon S3 Vectors introduce i bucket vettoriali S3, che puoi utilizzare per archiviare, accedere e interrogare dati vettoriali senza dover fornire alcuna infrastruttura. All'interno di un bucket vettoriale, puoi organizzare i dati vettoriali all'interno di indici vettoriali. Il tuo bucket vettoriale può avere più indici vettoriali e ogni indice vettoriale può contenere milioni di vettori. Per ulteriori informazioni, consulta Working with Amazon S3 Vectors and Vector bucket nella Amazon S3 User Guide.

Ogni vettore è composto da:

  • Una chiave unica

  • Dati vettoriali

  • Metadati opzionali in formato JSON

Gli indici vettoriali supportano le funzioni di distanza euclidea e cosena per le operazioni di ricerca di similarità.

Nota

Il vantaggio principale dei bucket vettoriali è la loro capacità di archiviare enormi set di dati a costi estremamente bassi, fornendo al contempo l'accesso diretto alle API per le operazioni vettoriali.

Per ulteriori informazioni sui bucket vettoriali Amazon S3, incluso come crearne uno, consulta Working with Amazon S3 Vectors and Vector bucket nella Amazon S3 User Guide. Per ulteriori informazioni sull'integrazione con OpenSearch Service oltre a quelle descritte in questo argomento, consulta Using S3 Vectors with Service OpenSearch

Puoi usare S3 Vectors con Amazon OpenSearch Service per ridurre il costo dello storage vettoriale quando le query sono meno frequenti e quindi spostare rapidamente quei set di dati all'aumentare delle richieste o per migliorare OpenSearch le capacità di ricerca.

OpenSearch Il servizio si integra con Amazon S3 Vectors per fornire prestazioni e funzionalità migliorate oltre a quelle offerte dai bucket vettoriali Amazon S3 da soli. Prendi in considerazione questa integrazione quando hai bisogno di:

  • Maggiore velocità di trasmissione delle query

  • Latenza di ricerca inferiore al secondo

  • Funzionalità di analisi avanzate come le aggregazioni

  • Ricerca ibrida che combina testo e dati vettoriali

Questa integrazione è particolarmente utile quando più applicazioni utilizzano gli stessi dati vettoriali con requisiti prestazionali diversi. Alcune applicazioni possono interagire direttamente con i bucket vettoriali Amazon S3 per casi d'uso sensibili ai costi, mentre altre sfruttano l'integrazione per operazioni critiche in termini di prestazioni. OpenSearch

Architettura di integrazione

L'integrazione utilizza Amazon OpenSearch Ingestion (OSI) come pipeline di dati tra gli indici vettoriali Amazon S3 e le raccolte vettoriali Amazon Serverless. OpenSearch OpenSearch Ingestion esporta automaticamente i dati vettoriali dall'indice vettoriale specificato e li inserisce in raccolte vettoriali Serverless per operazioni di ricerca ad alte prestazioni. OpenSearch

Nota

Dopo l'esportazione, i dati sono ancora presenti nell'indice vettoriale S3. Hai due copie dei dati.

Ogni indice vettoriale viene mappato a un indice corrispondente nella raccolta OpenSearch Service. L'integrazione:

  • Conserva le dimensioni vettoriali

  • Conserva i metadati

  • Ottimizza la struttura dei dati per le funzionalità OpenSearch di ricerca vettoriale

Dopo la configurazione, OpenSearch Ingestion avvia il processo di esportazione dei dati consumando i vettori dall'indice vettoriale specificato utilizzando l'API Amazon S3. ListVectors Il servizio elabora i vettori in parallelo per ottimizzare la velocità di inserimento rispettando i limiti di scalabilità di OpenSearch Ingestion e Amazon Serverless. OpenSearch

Durante l'ingestione, il servizio:

  • Trasforma i dati vettoriali in modo che corrispondano al formato previsto per il servizio OpenSearch

  • Conserva le informazioni essenziali tra cui valori vettoriali, metadati e metriche di distanza

  • Gestisce gli scenari di errore tramite meccanismi di ripetizione intelligenti

  • Inserisce i record problematici in un bucket Amazon S3 utilizzato come coda di lettere morte per analisi successive

L'integrazione gestisce enormi set di dati in modo efficiente, con prestazioni che dipendono dalle dimensioni del vettore, dalle dimensioni del set di dati e dai limiti di scalabilità configurati. OSI può scalare fino a 16 lavoratori per pipeline, mentre OpenSearch Serverless regola automaticamente la capacità in base alle richieste di ingestione. Per impostazione predefinita, OpenSearch aumenta a 100 l'unità maxSearch OpenSearch computazionale (OCU) sul lato serverless. OpenSearch

Nota

L'integrazione dà priorità all'efficienza dei costi attraverso:

  • Arresto automatico della pipeline dopo il completamento dell'esportazione

  • OpenSearch Scalabilità della raccolta senza server

  • Pay-per-use modello di risorse

Autorizzazioni IAM richieste

L'integrazione richiede un'attenta configurazione delle autorizzazioni IAM per consentire una comunicazione sicura tra i servizi. OpenSearch Ingestion richiede le autorizzazioni per leggere dagli indici vettoriali di Amazon S3, scrivere nelle raccolte vettoriali di OpenSearch Service e gestire le politiche di sicurezza associate.

Quando abiliti l'integrazione utilizzando la procedura riportata più avanti in questo argomento, puoi scegliere una delle seguenti opzioni per la gestione delle autorizzazioni:

  • Consenti al sistema di creare automaticamente un ruolo di servizio con le autorizzazioni necessarie

  • Fornisci un ruolo esistente che soddisfi i requisiti

Il ruolo creato automaticamente include politiche per:

  • Accesso all'indice vettoriale Amazon S3 APIs

  • Gestione delle operazioni di raccolta dei OpenSearch servizi

  • Gestione delle operazioni di coda delle lettere morte in caso di tentativi di inserimento non riusciti

Se scegli di specificare un ruolo esistente, verifica che il ruolo disponga delle seguenti autorizzazioni IAM:

(Obbligatorio): autorizzazioni per la pipeline di dati tra OpenSearch Ingestion e Serverless OpenSearch

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowAPIs", "Effect": "Allow", "Action": [ "aoss:APIAccessAll", "aoss:BatchGetCollection" ], "Resource": [ "arn:aws:aoss:*:account-id:collection/collection-id" ] }, { "Sid": "allowSecurityPolicy", "Effect": "Allow", "Action": [ "aoss:CreateSecurityPolicy", "aoss:UpdateSecurityPolicy", "aoss:GetSecurityPolicy" ], "Resource": "*", "Condition":{ "StringLike":{ "aoss:collection": [ "collection-name" ] }, "StringEquals": { "aws:ResourceAccount": [ "account-id" ] } } } ] }

(Obbligatorio): autorizzazioni per l'inserimento dei dati tra OpenSearch Ingestion e la coda di lettere morte di Amazon S3

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "s3Access", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/*" ] } ] }

(Obbligatorio): autorizzazioni di inserimento dati tra OpenSearch Ingestion e Amazon S3 Vectors

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "AllowS3VectorIndexAccess", "Effect": "Allow", "Action": [ "s3vectors:ListVectors", "s3vectors:GetVectors" ], "Resource": [ "arn:aws:s3vectors:region:account-id:bucket/bucket-name/index/index-name" ] } ] }

(Richiesto se AWS KMS la crittografia è abilitata): autorizzazioni di decrittografia per la comunicazione tra OpenSearch Ingestion e Amazon S3 Vectors

JSON
{ "Version": "2012-10-17", "Statement": [ { "Sid": "allowS3VectorDecryptionOfCustomManagedKey", "Effect": "Allow", "Action": [ "kms:Decrypt" ], "Resource": [ "arn:aws:kms:region:account-id:key/key-id" ], "Condition": { "StringEquals": { "kms:ViaService": "s3vectors.region.amazonaws.com", "kms:EncryptionContext:aws:s3vectors:arn": "arn:aws:s3vectors:region:account-id:bucket/bucket-name" } } } ] }

Configurazione dell'integrazione di Amazon S3 Vectors con OpenSearch

Utilizza la seguente procedura per configurare l'integrazione di Amazon S3 Vectors con Serverless. OpenSearch

Nota

Se hai avviato il processo di configurazione dell'integrazione dalla console Amazon S3 scegliendo l'opzione Esporta OpenSearch in nella pagina Vector bucket, alcuni dei passaggi della procedura seguente non sono applicabili, come indicato nella procedura.

Per configurare l'integrazione di Amazon S3 Vectors con Serverless OpenSearch
  1. Apri la pagina Importa l'indice vettoriale S3 nel motore OpenSearch vettoriale nella console di Amazon OpenSearch Service. La pagina viene visualizzata automaticamente se hai fatto clic su Esporta OpenSearch in nella console Amazon S3. Se inizi dalla OpenSearch console, scegli Integrazione nella barra di navigazione a sinistra, quindi scegli Importa indice vettoriale S3.

  2. Nella sezione Source, se hai iniziato dalla console Amazon S3, verifica che il nome dell'indice vettoriale e il relativo Amazon Resource Name (ARN) siano già specificati. Se hai iniziato dalla OpenSearch console, inserisci l'indice ARN nel campo ARN dell'indice vettoriale S3.

  3. Nella sezione Accesso al servizio, scegli un'opzione. Se scegli un ruolo esistente, verifica che disponga di tutte le autorizzazioni necessarie per l'integrazione, come descritto inAutorizzazioni IAM richieste.

  4. (Facoltativo) Espandere Additional settings (Impostazioni aggiuntive). Per Abilita la ridondanza (repliche attive) consigliamo di lasciare selezionata questa opzione per gli ambienti di produzione. Quando create la prima raccolta, OpenSearch Serverless ne crea due istanze, una per l'indicizzazione e OCUs una per la ricerca. Inoltre, avvia anche un set di nodi in standby in un'altra Zona di disponibilità per garantire un'elevata disponibilità. Per scopi di sviluppo e test, è possibile disabilitare l'impostazione Enable redondancy per una raccolta, che elimina le due repliche in standby e ne crea solo due. OCUs Per impostazione predefinita, le repliche attive ridondanti sono abilitate, il che significa che ne vengono create un totale di quattro OCUs per la prima raccolta in un account.

    Per Aggiungi AWS KMS chiave gestita dal cliente per Amazon OpenSearch Serverless vector, scegli questa opzione per crittografare i dati nella raccolta vettoriale utilizzando una chiave gestita dal cliente. Per impostazione predefinita, utilizza un. OpenSearch Chiave gestita da AWS

  5. Se hai avviato questo processo facendo clic sull' OpenSearchopzione Esporta in nella console Amazon S3, la sezione Esporta dettagli elenca i OpenSearch passaggi successivi. Quando sei pronto, scegli Esporta.

    Se hai avviato questo processo nella console OpenSearch di servizio, nella sezione Dettagli di importazione sono elencati i OpenSearch passaggi successivi. Quando sei pronto, scegli Importa.

    OpenSearch apre la pagina della cronologia per visualizzare tutti gli indici vettoriali exports/imports di Amazon S3 in indici Serverless. OpenSearch

Una volta completata con successo l'inserimento, OSI interrompe automaticamente la pipeline per evitare costi inutili e mantenere i dati esportati all'interno. OpenSearch È possibile monitorare l'avanzamento dell'integrazione tramite CloudWatch metriche e accedere a log dettagliati per la risoluzione dei problemi.

La OpenSearch raccolta rimane attiva e disponibile per le interrogazioni dopo il completamento dell'inserimento iniziale. È possibile eseguire:

  • Ricerche per somiglianza

  • Aggregazioni

  • Operazioni di analisi