Amazon S3 - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon S3

Amazon S3 è un servizio di archiviazione di oggetti che archivia i dati come oggetti all'interno di bucket. Puoi usarlo Amazon Kendra per indicizzare il tuo archivio di documenti Amazon S3 bucket.

avvertimento

Amazon Kendra non utilizza una policy bucket che concede le autorizzazioni a un Amazon Kendra principale per interagire con un bucket S3. Utilizza invece i ruoli. IAM Assicurati che Amazon Kendra non sia incluso come membro fidato nella tua bucket policy per evitare problemi di sicurezza dei dati derivanti dalla concessione accidentale di autorizzazioni a responsabili arbitrari. Tuttavia, puoi aggiungere una policy sui bucket per utilizzare un bucket su account diversi. Amazon S3 Per ulteriori informazioni, consulta Politiche da utilizzare Amazon S3 tra gli account (nella scheda IAM Ruoli di S3, sotto IAM Ruoli per le fonti di dati). Per informazioni sui IAM ruoli per le fonti di dati S3, consulta IAM ruoli.

Nota

Amazon Kendra ora supporta un connettore aggiornato Amazon S3 .

La console è stata aggiornata automaticamente per te. Tutti i nuovi connettori creati nella console utilizzeranno l'architettura aggiornata. Se utilizzi l'API, ora devi utilizzare l'TemplateConfigurationoggetto anziché l'S3DataSourceConfigurationoggetto per configurare il connettore.

I connettori configurati utilizzando la console e l'architettura API precedenti continueranno a funzionare come configurato. Tuttavia, non potrai modificarli o aggiornarli. Se desideri modificare o aggiornare la configurazione del connettore, devi creare un nuovo connettore.

Ti consigliamo di migrare il flusso di lavoro del connettore alla versione aggiornata. La fine del supporto per i connettori configurati utilizzando l'architettura precedente è prevista entro giugno 2024.

Puoi connetterti alla tua fonte di Amazon S3 dati utilizzando la Amazon Kendra console o l'TemplateConfigurationAPI.

Nota

Per generare un rapporto sullo stato della sincronizzazione per l'origine Amazon S3 dati, consulta Risoluzione dei problemi relativi alle origini dati.

Per la risoluzione dei problemi del connettore di origine dati Amazon Kendra S3, consultaRisoluzione dei problemi relativi alle origini dati.

Funzionalità supportate

  • Mappature dei campi

  • Controllo degli accessi degli utenti

  • Filtri di inclusione/esclusione

  • Sincronizzazione completa e incrementale dei contenuti

  • Virtual Private Cloud (VPC) (Cloud privato virtuale (VPC)

Prerequisiti

Prima di poterla utilizzare Amazon Kendra per indicizzare la tua fonte di dati S3, apporta queste modifiche a S3 e agli account. AWS

In S3, assicurati di avere:

  • Hai copiato il nome del tuo Amazon S3 bucket.

    Nota

    Il bucket deve trovarsi nella stessa area dell' Amazon Kendra indice e l'indice deve disporre dell'autorizzazione per accedere al bucket che contiene i documenti.

  • Selezionato, ogni documento è unico in S3 e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. Gli ID dei documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo AWS account, assicurati di avere:

Se non disponi di un IAM ruolo esistente, puoi utilizzare la console per creare un nuovo IAM ruolo quando connetti l'origine dati S3 a. Amazon Kendra Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo esistente e un ID di indice.

Istruzioni di connessione

Per connetterti Amazon Kendra alla tua fonte dati S3, devi fornire i dettagli necessari della tua origine dati S3 in modo che Amazon Kendra possa accedere ai tuoi dati. Se non hai ancora configurato S3 per Amazon Kendra, consulta. Prerequisiti

Console

Per connettersi Amazon Kendra a Amazon S3

  1. Accedi a AWS Management Console e apri la Amazon Kendra console.

  2. Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

    Nota

    Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.

  3. Nella pagina Guida introduttiva, scegli Aggiungi origine dati.

  4. Nella pagina Aggiungi origine dati, scegli Connettore S3, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore S3 con il tag «V2.0".

  5. Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:

    1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.

    2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per l'origine dati.

    3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.

    4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS

    5. Seleziona Successivo.

  6. Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni opzionali:

    1. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.

      Nota

      IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.

    2. Virtual Private Cloud (VPC): puoi scegliere di utilizzare un VPC. In tal caso, è necessario aggiungere sottoreti e gruppi di sicurezza VPC.

    3. Seleziona Successivo.

  7. Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:

    1. Per la posizione dell'origine dati: specifica il percorso del Amazon S3 bucket in cui sono archiviati i dati. Seleziona Browse S3 per scegliere il tuo bucket S3.

    2. Per la dimensione massima del file: specifica un limite in MB per eseguire la scansione solo dei file al di sotto di questo limite. La dimensione Amazon Kendra massima consentita per il file è di 50 MB.

    3. Per i file di metadati (facoltativo), prefisso, posizione della cartella: specifica il percorso della cartella in cui sono archiviati i campi/attributi e gli altri metadati del documento. Seleziona Browse S3 per individuare la cartella dei metadati.

    4. Per (Facoltativo) Posizione del file di configurazione dell'elenco di controllo degli accessi: specifica il percorso del file che contiene una struttura JSON degli utenti e il loro accesso ai documenti. Seleziona Browse S3 per individuare il file ACL.

    5. (Facoltativo) Seleziona la chiave di decrittografia: seleziona per utilizzare una chiave di decrittografia. È possibile scegliere di utilizzare una chiave esistente. AWS KMS

    6. Per una configurazione aggiuntiva (facoltativo): aggiungi modelli per includere o escludere determinati file. Tutti i percorsi sono relativi alla posizione della sorgente dati nel bucket S3.

    7. Modalità di sincronizzazione: scegli come aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione.

      • Sincronizzazione completa: indicizza di nuovo tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.

      • Sincronizzazione nuova, modificata ed eliminata: indicizza solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

    8. Nella pianificazione di esecuzione della sincronizzazione, per Frequenza: scegli la frequenza con cui sincronizzare il contenuto della fonte di dati e aggiornare l'indice.

    9. Seleziona Successivo.

  8. Nella pagina Imposta mappature dei campi, inserisci le seguenti informazioni facoltative:

    1. Mappature di campo predefinite: seleziona uno dei campi delle origini dati predefiniti Amazon Kendra generati che desideri mappare all'indice.

    2. Aggiungi campo: scegli di aggiungere campi di origine dati personalizzati per creare un nome di campo indice a cui mappare e il tipo di dati del campo.

    3. Seleziona Successivo.

  9. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connettersi Amazon Kendra a Amazon S3

È necessario specificare un codice JSON dello schema dell'origine dati utilizzando l'TemplateConfigurationAPI. È necessario fornire le seguenti informazioni:

  • Origine dati: specifica il tipo di origine dati come S3 quando usi lo schema TemplateConfigurationJSON. Specificate anche l'origine dati come TEMPLATE quando chiamate l'CreateDataSourceAPI.

  • BucketName—Il nome del bucket che contiene i documenti.

  • Modalità di sincronizzazione: specifica come Amazon Kendra aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione. Puoi scegliere tra:

    • FORCED_FULL_CRAWLper indicizzare nuovamente tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.

    • FULL_CRAWLper indicizzare solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

  • IAM ruolo: specifica RoleArn quando chiami CreateDataSource per fornire a un IAM ruolo le autorizzazioni per accedere al tuo account Secrets Manager segreto e per chiamare le API pubbliche richieste per il connettore S3 e. Amazon Kendra Per ulteriori informazioni, consulta i IAM ruoli per le fonti di dati S3.

Puoi anche aggiungere le seguenti funzionalità opzionali:

  • Virtual Private Cloud (VPC): VpcConfiguration specifica quando si chiama. CreateDataSource Per ulteriori informazioni, consulta Configurazione Amazon Kendra usare un Amazon VPC.

  • Filtri di inclusione ed esclusione: specificano se includere o escludere determinati nomi di file, tipi di file e percorsi di file. Si utilizzano modelli a globo (modelli che possono espandere un pattern di caratteri jolly in un elenco di nomi di percorso che corrispondono al modello specificato). Per esempi, consulta Use of Exclude and Include Filters nel riferimento ai comandi AWS CLI.

  • Metadati del documento e configurazione del controllo degli accessi: aggiungi i metadati dei documenti e i file di controllo degli accessi che contengono informazioni come l'URI di origine, l'autore del documento o gli attributi/campi personalizzati del documento e gli utenti e i documenti a cui possono accedere. Ogni file di metadati contiene metadati relativi a un singolo documento.

  • Mappature dei campi: scegli di mappare i campi delle sorgenti dati S3 ai campi indice. Amazon Kendra Per ulteriori informazioni, consulta la sezione Mappatura dei campi di origine dei dati.

    Nota

    Il campo del corpo del documento o l'equivalente del corpo del documento per i documenti è necessario per Amazon Kendra eseguire la ricerca nei documenti. È necessario mappare il nome del campo del corpo del documento nella fonte dati al nome del campo indice_document_body. Tutti gli altri campi sono facoltativi.

Per un elenco di altre importanti chiavi JSON da configurare, consulta lo schema S3 del modello.

Ulteriori informazioni

Per saperne di più sull'integrazione Amazon Kendra con la tua fonte di dati S3, consulta: