Connettore Google Drive V2.0 - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connettore Google Drive V2.0

Google Drive è un servizio di archiviazione di file basato su cloud. Puoi utilizzarlo Amazon Kendra per indicizzare documenti e commenti archiviati nelle cartelle Drive condivise, I miei Drive e Condivisi con me nella tua fonte di dati Google Drive. Puoi indicizzare i documenti di Google Workspace, oltre ai documenti elencati in Tipi di documentazione. Puoi anche utilizzare i filtri di inclusione ed esclusione per indicizzare i contenuti in base al nome, al tipo di file e al percorso del file.

Nota

Il supporto per il connettore Google Drive V1.0/Google DriveConfiguration API dovrebbe terminare nel 2023. Ti consigliamo di eseguire la migrazione o utilizzare il connettore Google Drive V2.0/. TemplateConfiguration API

Per la risoluzione dei problemi relativi al connettore di origine dati di Amazon Kendra Google Drive, consulta. Risoluzione dei problemi relativi alle origini dati

Funzionalità supportate

  • Mappature dei campi

  • Controllo dell'accesso degli utenti

  • Filtri di inclusione/esclusione

  • Sincronizzazione completa e incrementale dei contenuti

  • Cloud privato virtuale () VPC

Prerequisiti

Prima di poterla utilizzare Amazon Kendra per indicizzare la fonte di dati di Google Drive, apporta le modifiche su Google Drive e AWS sugli account.

In Google Drive, assicurati di avere:

  • O hai ottenuto l'accesso da un ruolo di super amministratore o sei un utente con privilegi amministrativi. Non hai bisogno di un ruolo di super amministratore se ti è stato concesso l'accesso da un ruolo di super amministratore.

  • Credenziali di connessione all'account di servizio Google Drive configurate contenenti l'e-mail dell'account amministratore, l'e-mail del client (e-mail dell'account di servizio) e la chiave privata. Consulta la documentazione di Google Cloud sulla creazione e l'eliminazione delle chiavi dell'account di servizio.

    Nota

    Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e versioni dei connettori 1.0 e 2.0 (ove applicabile).

  • Hai creato un account Google Cloud Service (un account con l'autorità delegata per assumere un'identità utente) con l'opzione Abilita la delega a livello di dominio G Suite attivata per server-to-server l'autenticazione, quindi ha generato una JSON chiave privata utilizzando l'account.

    Nota

    La chiave privata deve essere generata dopo la creazione dell'account di servizio.

  • Aggiunti Admin SDK API e Google Drive API nel tuo account utente.

  • Facoltativo: credenziali di connessione configurate di Google Drive OAuth 2.0 contenenti ID client, client secret e token di aggiornamento come credenziali di connessione per un utente specifico. Ne hai bisogno per eseguire la scansione dei dati dei singoli account. Consulta la documentazione di Google sull'utilizzo della OAuth versione 2.0 per accedere APIs.

  • Hai aggiunto (o richiesto a un utente con un ruolo di super amministratore di aggiungere) i seguenti OAuth ambiti al tuo account di servizio utilizzando un ruolo di super amministratore. Questi API ambiti sono necessari per eseguire la scansione di tutti i documenti e accedere alle informazioni di controllo (ACL) per tutti gli utenti di un dominio Google Workspace:

    • https://www.googleapis.com/auth/drive.readonly: visualizza e scarica tutti i tuoi file di Google Drive

    • https://www.googleapis.com/auth/drive.metadata.readonly: visualizza i metadati per i file in Google Drive

    • https://www.googleapis.com/auth/admin.directory.group.readOnly: consente di recuperare solo le informazioni su gruppi, alias di gruppo e membri. È necessario per l'Identity Amazon Kendra Crawler.

    • https://www.googleapis.com/auth/admin.directory.user.readOnly: ambito per il recupero solo di utenti o alias utente. È necessario per elencare gli utenti nell'Identity Crawler e per l'impostazione Amazon Kendra . ACLs

    • https://www.googleapis.com/auth/Piattaforma cloud: ambito per la generazione di token di accesso per il recupero di contenuti di file Google Drive di grandi dimensioni.

    • https://www.googleapis.com/auth/forms.body.readonly: ambito per il recupero di dati da Google Forms.

    Per supportare i moduli, aggiungi il seguente ambito aggiuntivo: API

    • https://www.googleapis.com/auth/forms.body.readonly

  • È stato verificato che ogni documento sia unico in Google Drive e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. IDsI documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo Account AWS, assicurati di avere:

  • Ha creato un Amazon Kendra indice e, se si utilizza ilAPI, ha annotato l'ID dell'indice.

  • Hai creato un IAM ruolo per la tua fonte di dati e, se utilizzi ilAPI, hai annotato il IAM ruolo. ARN

    Nota

    Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.

  • Hai archiviato le credenziali di autenticazione di Google Drive in un luogo AWS Secrets Manager segreto e, se utilizzi ilAPI, hai annotato il ARN segreto.

    Nota

    Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e versioni dei connettori 1.0 e 2.0 (ove applicabile).

Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti la tua fonte di dati Google Drive a. Amazon Kendra Se utilizzi ilAPI, devi fornire un IAM ruolo e un Secrets Manager segreto esistenti e un ID di indice. ARN

Istruzioni di connessione

Per connetterti Amazon Kendra alla tua fonte di dati Google Drive, devi fornire i dettagli necessari sulla tua fonte di dati Google Drive in modo che Amazon Kendra possa accedere ai tuoi dati. Se non hai ancora configurato Google Drive per Amazon Kendra vederePrerequisiti.

Console

Per connetterti Amazon Kendra a Google Drive

  1. Accedi a AWS Management Console e apri la Amazon Kendra console.

  2. Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

    Nota

    Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.

  3. Nella pagina Guida introduttiva, scegli Aggiungi origine dati.

  4. Nella pagina Aggiungi origine dati, scegli Connettore Google Drive, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore Google Drive con il tag «V2.0".

  5. Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:

    1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.

    2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per l'origine dati.

    3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.

    4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS

    5. Scegli Next (Successivo).

  6. Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:

    1. Autorizzazione: attiva o disattiva le informazioni sulla lista di controllo degli accessi (ACL) per i tuoi documenti, se ne hai una ACL e desideri utilizzarla per il controllo degli accessi. ACLspecifica a quali documenti possono accedere utenti e gruppi. Le ACL informazioni vengono utilizzate per filtrare i risultati della ricerca in base all'accesso dell'utente o del relativo gruppo ai documenti. Per ulteriori informazioni, consulta Filtraggio del contesto utente.

    2. Per l'autenticazione: scegli tra l'account di servizio Google e l'autenticazione OAuth 2.0 in base al tuo caso d'uso.

    3. AWS Secrets Manager segreto: scegli un segreto esistente o creane uno nuovo Secrets Manager per archiviare le credenziali di autenticazione di Google Drive. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.

      1. Se hai scelto un account di servizio Google, inserisci un nome per il tuo account segreto, l'ID email dell'utente amministratore o «Utente dell'account di servizio» nella configurazione dell'account di servizio (email dell'amministratore), l'ID e-mail dell'account di servizio (email del client) e la chiave privata che hai creato nel tuo account di servizio.

        Salva e aggiungi il tuo segreto

      2. Se hai scelto l'autenticazione OAuth 2.0, inserisci un nome per il segreto, l'ID cliente, il segreto del cliente e il token di aggiornamento che hai creato nel tuo OAuth account. L'ID di posta dell'utente (utente i cui dettagli di connessione sono configurati) verrà impostato comeACL. Il connettore non imposta altre informazioni principali sull'utente/gruppo ACL a API causa delle limitazioni.

        Salva e aggiungi il tuo segreto.

    4. Virtual Private Cloud (VPC): puoi scegliere di utilizzare unVPC. In tal caso, è necessario aggiungere sottoreti e VPC gruppi di sicurezza.

    5. (Solo per gli utenti dell'autenticazione dell'account del servizio Google)

      Identity crawler: specifica se attivare il crawler Amazon Kendra di identità. Il crawler di identità utilizza le informazioni dell'elenco di controllo degli accessi (ACL) per i documenti per filtrare i risultati della ricerca in base all'accesso dell'utente o del gruppo di appartenenza ai documenti. Se ne hai uno ACL per i tuoi documenti e scegli di utilizzare il tuoACL, puoi anche scegliere di attivare il crawler Amazon Kendra di identità per configurare il filtraggio contestuale dell'utente dei risultati di ricerca. Altrimenti, se il crawler di identità è disattivato, tutti i documenti possono essere ricercati pubblicamente. Se desideri utilizzare il controllo di accesso per i tuoi documenti e il crawler di identità è disattivato, in alternativa puoi utilizzarlo PutPrincipalMappingAPIper caricare le informazioni di accesso di utenti e gruppi per il filtraggio del contesto degli utenti.

    6. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.

      Nota

      IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice oppure FAQ scegli Crea un nuovo ruolo per evitare errori.

    7. Scegli Next (Successivo).

  7. Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:

    1. Sincronizza contenuti: seleziona le opzioni o il contenuto che desideri sottoporre a scansione. Puoi scegliere di eseguire la scansione di My Drive (cartelle personali), Shared Drive (cartelle condivise con te) o entrambi. Puoi anche includere commenti sui file.

    2. In Configurazione aggiuntiva - opzionale È inoltre possibile inserire le seguenti informazioni opzionali:

      1. Dimensione massima del file: imposta il limite massimo di dimensione MBs dei file da sottoporre a scansione.

      2. Email utente: consente di aggiungere le e-mail degli utenti che si desidera includere o escludere.

      3. Unità condivise: aggiungi i nomi delle unità condivise che desideri includere o escludere.

      4. Tipi MIME: aggiungi MIME i tipi che desideri includere o escludere.

      5. Modelli di espressioni regolari di entità: aggiungono modelli di espressioni regolari per includere o escludere determinati allegati per tutte le entità supportate. È possibile aggiungere fino a 100 pattern.

        È possibile configurare modelli regex di inclusione/esclusione per Nome file, Tipo di file e Percorso del file.

        • Nome file: il nome del file da includere o escludere. Ad esempio, per indicizzare un file con un nometeamroster.txt, fornisciteamroster.

        • Tipo di file: il tipo di file da includere o escludere. Ad esempio, .pdf .txt .docx.

        • Percorso del file: il percorso del file da includere o escludere. Ad esempio, per indicizzare i file solo all'interno Products list della cartella di un'unità, fornisci/Products list.

    3. Modalità di sincronizzazione: scegli come aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione.

      • Sincronizzazione completa: indicizza di nuovo tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.

      • Nuova sincronizzazione modificata: indicizza solo i contenuti nuovi e modificati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

      • Sincronizzazione nuova, modificata ed eliminata: indicizza solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

      Importante

      Google Drive API non supporta il recupero dei commenti da un file eliminato definitivamente. I commenti dai file cestinati sono recuperabili. Quando un file viene cestinato, il connettore elimina i commenti dall'indice. Amazon Kendra

    4. In Pianificazione di esecuzione della sincronizzazione, per Frequenza, scegli la frequenza con cui sincronizzare il contenuto della fonte di dati e aggiornare l'indice.

    5. Nella cronologia di esecuzione di Sync, scegli di archiviare i report generati automaticamente in un attimo Amazon S3 durante la sincronizzazione della tua fonte di dati. Ciò è utile per tenere traccia dei problemi durante la sincronizzazione della fonte di dati.

    6. Scegli Next (Successivo).

  8. Nella pagina Imposta mappature dei campi, inserisci le seguenti informazioni:

    1. Per i file: seleziona uno dei campi di origine dati predefiniti Amazon Kendra generati che desideri mappare all'indice.

      Nota

      Google Drive API non supporta la creazione di campi personalizzati. La mappatura personalizzata dei campi non è disponibile per il connettore Google Drive.

    2. Scegli Next (Successivo).

  9. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connetterti Amazon Kendra a Google Drive

È necessario specificare uno schema JSON dell'origine dati utilizzando TemplateConfigurationAPI. È necessario fornire le seguenti informazioni:

  • Origine dati: specificare il tipo di origine dati utilizzato GOOGLEDRIVEV2 quando si utilizza lo TemplateConfigurationJSONschema. Specificate anche l'origine dati come TEMPLATE quando chiamate il CreateDataSourceAPI.

  • Tipo di autenticazione: specificare se utilizzare l'autenticazione dell'account di servizio o l'autenticazione OAuth 2.0.

  • Modalità di sincronizzazione: specifica come Amazon Kendra aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione. Puoi scegliere tra:

    • FORCED_FULL_CRAWLper indicizzare nuovamente tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.

    • FULL_CRAWLper indicizzare solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

    • CHANGE_LOGper indicizzare solo contenuti nuovi e modificati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

    Importante

    Google Drive API non supporta il recupero dei commenti da un file eliminato definitivamente. I commenti dai file cestinati sono recuperabili. Quando un file viene cestinato, il connettore elimina i commenti dall'indice. Amazon Kendra

  • Amazon Resource Name segreto (ARN): fornisci il nome della risorsa Amazon (ARN) di un Secrets Manager segreto che contiene le credenziali di autenticazione che hai creato nel tuo account Google Drive. Se utilizzi l'autenticazione dell'account del servizio Google, il segreto viene archiviato in una JSON struttura con le seguenti chiavi:

    { "clientEmail": "user account email", "adminAccountEmail": "service account email", "privateKey": "private key" }

    Se utilizzi l'autenticazione OAuth 2.0, il segreto viene archiviato in una JSON struttura con le seguenti chiavi:

    { "clientID": "OAuth client ID", "clientSecret": "client secret", "refreshToken": "refresh token" }
  • IAM ruolo: specifica RoleArn quando chiami CreateDataSource per fornire a un IAM ruolo le autorizzazioni ad accedere al tuo account Secrets Manager segreto e a chiamare il pubblico richiesto APIs per il connettore Google Drive e. Amazon Kendra Per ulteriori informazioni, consulta IAM i ruoli per le fonti di dati di Google Drive.

Puoi anche aggiungere le seguenti funzionalità opzionali:

  • Virtual Private Cloud (VPC): specifica VpcConfiguration quando si chiamaCreateDataSource. Per ulteriori informazioni, consulta Configurazione Amazon Kendra per l'utilizzo di un Amazon VPC.

  • I miei drive, Shared Drives, Comments: puoi specificare se eseguire la scansione di questi tipi di contenuti.

  • Filtri di inclusione ed esclusione: puoi specificare se includere o escludere determinati account utente, unità condivise e tipi. MIME

    Nota

    La maggior parte delle fonti di dati utilizza modelli di espressioni regolari, che sono modelli di inclusione o esclusione denominati filtri. Se si specifica un filtro di inclusione, viene indicizzato solo il contenuto che corrisponde al filtro di inclusione. Qualsiasi documento che non corrisponde al filtro di inclusione non viene indicizzato. Se si specifica un filtro di inclusione ed esclusione, i documenti che corrispondono al filtro di esclusione non vengono indicizzati, anche se corrispondono al filtro di inclusione.

  • Elenco di controllo degli accessi (ACL): specifica se eseguire la scansione ACL delle informazioni dei documenti, se ne hai uno ACL e desideri utilizzarlo per il controllo degli accessi. ACLspecifica a quali documenti possono accedere utenti e gruppi. Le ACL informazioni vengono utilizzate per filtrare i risultati della ricerca in base all'accesso dell'utente o del relativo gruppo ai documenti. Per ulteriori informazioni, consulta Filtraggio del contesto utente.

  • Identity crawler: specifica se attivare il crawler di identità. Amazon Kendra Il crawler di identità utilizza le informazioni dell'elenco di controllo degli accessi (ACL) per i documenti per filtrare i risultati della ricerca in base all'accesso dell'utente o del gruppo di appartenenza ai documenti. Se ne hai uno ACL per i tuoi documenti e scegli di utilizzare il tuoACL, puoi anche scegliere di attivare il crawler Amazon Kendra di identità per configurare il filtraggio contestuale dell'utente dei risultati di ricerca. Altrimenti, se il crawler di identità è disattivato, tutti i documenti possono essere ricercati pubblicamente. Se desideri utilizzare il controllo di accesso per i tuoi documenti e il crawler di identità è disattivato, in alternativa puoi utilizzarlo PutPrincipalMappingAPIper caricare le informazioni di accesso di utenti e gruppi per il filtraggio del contesto degli utenti.

  • Mappature dei campi: scegli di mappare i campi delle sorgenti dati di Google Drive ai campi dell'indice. Amazon Kendra Per ulteriori informazioni, consulta la sezione Mappatura dei campi di origine dei dati.

    Nota

    Il campo del corpo del documento o l'equivalente del corpo del documento per i documenti è necessario per Amazon Kendra eseguire la ricerca nei documenti. È necessario mappare il nome del campo del corpo del documento nella fonte dati al nome del campo indice_document_body. Tutti gli altri campi sono facoltativi.

Per un elenco di altre JSON chiavi importanti da configurare, consulta lo schema del modello di Google Drive.

Note

  • La mappatura personalizzata dei campi non è disponibile per il connettore Google Drive poiché l'interfaccia utente di Google Drive non supporta la creazione di campi personalizzati.

  • Google Drive non API supporta il recupero dei commenti da un file eliminato definitivamente. I commenti sono recuperabili, tuttavia, per i file cestinati. Quando un file viene cestinato, il Amazon Kendra connettore eliminerà i commenti dall'indice. Amazon Kendra

  • Google Drive API non restituisce i commenti presenti in un file.docx.

  • Se l'autorizzazione per un particolare Google document (documento, foglio di calcolo, diapositiva, ecc.) è impostata su Accesso generale: chiunque abbia il link o Condiviso con il tuo dominio aziendale specifico, il documento non sarà visibile agli utenti di ricerca di Amazon Kendra finché l'utente che effettua la query non avrà effettuato l'accesso al documento.