Lavorare con vettori S3 e bucket vettoriali - Amazon Simple Storage Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Lavorare con vettori S3 e bucket vettoriali

Nota

Amazon S3 Vectors è in versione di anteprima per Amazon Simple Storage Service ed è soggetto a modifiche.

Che cos'è Amazon S3 Vectors?

Amazon S3 Vectors offre uno storage vettoriale personalizzato e ottimizzato in termini di costi per le tue applicazioni di ricerca semantica e intelligenza artificiale. Con elasticità e durabilità a livello di Amazon S3 per l'archiviazione di set di dati vettoriali con prestazioni di query inferiori al secondo, S3 Vectors è ideale per le applicazioni che devono creare e far crescere indici vettoriali. Ottieni un set dedicato di operazioni API per archiviare, accedere ed eseguire query di somiglianza su dati vettoriali senza dover fornire alcuna infrastruttura. S3 Vectors è composto da diversi componenti chiave che funzionano insieme:

  • Bucket vettoriali: un nuovo tipo di bucket creato appositamente per archiviare e interrogare i vettori.

  • Indici vettoriali: all'interno di un bucket vettoriale, puoi organizzare i dati vettoriali all'interno di indici vettoriali. Eseguite interrogazioni di somiglianza sui dati vettoriali all'interno di indici vettoriali.

  • Vettori: memorizzi i vettori nel tuo indice vettoriale. Per le applicazioni di ricerca per similarità e di intelligenza artificiale, i vettori vengono creati come incorporamenti vettoriali, ossia rappresentazioni numeriche che preservano le relazioni semantiche tra i contenuti (come testo, immagini o audio) in modo che elementi simili siano posizionati più vicini tra loro. S3 Vectors può eseguire ricerche di somiglianza basate sul significato semantico anziché sulla corrispondenza esatta confrontando matematicamente quanto i vettori sono vicini tra loro. Quando aggiungi dati vettoriali a un indice vettoriale, puoi anche allegare metadati per future query di filtraggio basate su una serie di condizioni (ad esempio, timestamp, categorie e preferenze dell'utente).

Le scritture su S3 Vectors sono fortemente coerenti, il che significa che puoi accedere immediatamente ai dati aggiunti più di recente. Man mano che scrivi, aggiorni ed elimini i vettori nel tempo, S3 Vectors ottimizza automaticamente i dati vettoriali per ottenere il miglior rapporto prezzo/prestazioni possibile per l'archiviazione vettoriale, anche se i set di dati si scalano e si evolvono. Puoi controllare l'accesso ai tuoi dati vettoriali con i meccanismi di controllo degli accessi esistenti di Amazon S3, incluse le policy bucket e IAM. Per ulteriori informazioni sui limiti degli indici vettoriali per bucket e sui limiti degli indici vettoriali per indice, consulta. Limitazioni e restrizioni

Casi d'uso: ricerche di similarità su set di dati di grandi dimensioni

Le ricerche per similarità consentono di trovare elementi concettualmente correlati tra loro in base alle rispettive rappresentazioni vettoriali, anziché alle corrispondenze esatte delle parole chiave. Queste ricerche identificano contenuti con significati o caratteristiche simili, anche quando le parole o gli elementi visivi esatti sono diversi.

I casi d'uso più comuni per la ricerca di similarità con S3 Vectors includono:

  • Diagnostica per immagini: individuate analogie tra milioni di immagini mediche per facilitare la diagnosi e la pianificazione del trattamento

  • Violazione del copyright: identifica contenuti potenzialmente derivati in grandi librerie multimediali

  • Deduplicazione delle immagini: rileva e rimuovi immagini duplicate o quasi duplicate da raccolte di immagini di grandi dimensioni

  • Comprensione dei video: cerca scene o contenuti specifici all'interno delle risorse video

  • Ricerca di documenti aziendali: abilita la ricerca semantica tra i documenti aziendali per trovare informazioni pertinenti in base al significato

  • Personalizzazione: fornisci consigli personalizzati trovando articoli simili

È consigliabile utilizzare S3 Vectors se si desidera creare applicazioni di ricerca vettoriale e di intelligenza artificiale agentiche convenienti con tempi di ricerca inferiori al secondo. Con i bucket vettoriali, paghi solo per ciò che usi e potresti risparmiare sui costi di caricamento, archiviazione e interrogazione degli incorporamenti vettoriali. Per ulteriori informazioni sui prezzi, consulta Prezzi di Amazon S3.

Caratteristiche di S3 Vectors

Archiviazione creata appositamente per i vettori

S3 Vectors è il primo storage di oggetti creato appositamente nel cloud per archiviare e interrogare i vettori. I bucket vettoriali sono progettati per fornire uno storage economico, elastico e durevole per i dati vettoriali.

Gli incorporamenti vettoriali stanno trasformando il modo in cui i clienti utilizzano e recuperano i dati non strutturati, rilevando somiglianze tra immagini mediche, individuando anomalie in migliaia di ore di riprese video, navigando attraverso ampie basi di codice e identificando la giurisprudenza più rilevante per una determinata questione legale. Queste applicazioni emergenti si combinano con modelli di incorporamento per codificare il significato semantico dei dati (ad esempio testo, immagini, video, codice) come incorporamenti vettoriali numerici.

All'interno di un bucket vettoriale, puoi organizzare i dati vettoriali all'interno di indici vettoriali, senza dover predisporre l'infrastruttura. Man mano che scrivi, aggiorni ed elimini i vettori nel tempo, S3 Vectors ottimizza automaticamente i dati vettoriali per ottenere il miglior rapporto prezzo/prestazioni possibile per l'archiviazione vettoriale, anche se i set di dati si scalano e si evolvono. Per ulteriori informazioni sui limiti degli indici vettoriali per bucket e sui limiti degli indici vettoriali per indice, consulta. Limitazioni e restrizioni

Esegui interrogazioni di somiglianza

Con S3 Vectors, puoi eseguire query di similarità efficienti per trovare i vettori più simili a un vettore di query, con tempi di risposta inferiori al secondo. S3 Vectors è ideale per carichi di lavoro in cui le query sono meno frequenti.

Filtraggio dei metadati

Puoi allegare i metadati (ad esempio, anno, autore, genere e luogo) come coppie chiave-valore ai tuoi vettori. Per impostazione predefinita, tutti i metadati sono filtrabili a meno che non vengano esplicitamente specificati come non filtrabili. È possibile utilizzare metadati filtrabili per filtrare i risultati delle query in base a attributi specifici, migliorando la pertinenza delle query. Gli indici vettoriali supportano i tipi di metadati di tipo stringa, numerico, booleano ed elenco. Per ulteriori informazioni sui limiti di dimensione dei metadati per vettore e sui limiti di dimensione dei metadati filtrabili per vettore, consulta. Limitazioni e restrizioni

Gestione degli accessi e sicurezza

Puoi gestire l'accesso alle risorse in bucket vettoriali con IAM e Service Control Policies in Organizations AWS . S3 Vectors utilizza uno spazio dei nomi di servizio diverso da Amazon S3: lo spazio dei nomi. s3vectors Pertanto, puoi progettare politiche specifiche per il servizio S3 Vectors e le sue risorse. È possibile progettare politiche per concedere l'accesso a singoli indici vettoriali, a tutti gli indici vettoriali all'interno di un bucket vettoriale o a tutti i bucket vettoriali di un account. Tutte le impostazioni di Amazon S3 Block Public Access sono sempre abilitate per i bucket vettoriali e non possono essere disabilitate.

Integrazione con i servizi AWS

S3 Vectors si integra con altri AWS servizi per migliorare le capacità di elaborazione vettoriale:

  • Amazon OpenSearch Service: ottimizza i costi di storage vettoriale continuando a utilizzare le operazioni OpenSearch API. È ideale per carichi di lavoro che richiedono funzionalità di ricerca avanzate come ricerca ibrida, aggregazioni, filtri avanzati e ricerca sfaccettata. Puoi anche esportare uno snapshot di un indice vettoriale S3 in Amazon OpenSearch Serverless per una ricerca vettoriale con QPS elevato e bassa latenza.

  • Amazon Bedrock Knowledge Bases: seleziona un indice vettoriale in S3 Vectors come archivio vettoriale per risparmiare sui costi di storage per le applicazioni di generazione aumentata di recupero (RAG).

  • Amazon Bedrock in SageMaker Unified Studio: sviluppa e testa basi di conoscenza utilizzando S3 Vectors come archivio vettoriale.