Connect a Microsoft SharePoint per accedere alla knowledge base di Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connect a Microsoft SharePoint per accedere alla knowledge base di Amazon Bedrock

Microsoft SharePoint è un servizio collaborativo basato sul Web per lavorare su documenti, pagine Web, siti Web, elenchi e altro. Puoi connetterti alla tua SharePoint istanza per la tua knowledge base Amazon Bedrock utilizzando uno dei seguenti AWS Console di gestione per Amazon Bedrock o CreateDataSourceAPI(vedi Amazon Bedrock) supportato e SDKs AWS CLI).

Nota

Microsoft SharePoint Data Source Connector è in versione di anteprima ed è soggetto a modifiche.

Amazon Bedrock supporta la connessione a istanze SharePoint online. La scansione dei OneNote documenti non è attualmente supportata. Attualmente, solo Amazon OpenSearch Serverless Vector Store è disponibile per l'uso con questa fonte di dati.

Esistono dei limiti al numero di file e MB per file che possono essere sottoposti a scansione. Vedi Quotas per le basi di conoscenza.

Funzionalità supportate

  • Rilevamento automatico dei campi principali del documento

  • Filtri di contenuto di inclusione/esclusione

  • Sincronizzazione incrementale dei contenuti per contenuti aggiunti, aggiornati ed eliminati

  • OAuthautenticazione 2.0

Prerequisiti

Nel SharePoint, assicurati di:

  • Prendi nota del tuo sito SharePoint onlineURL/URLs. Ad esempio, https://yourdomain.sharepoint.com/sites/mysite. URLDevi iniziare con https e contenere sharepoint.com. Il tuo sito URL deve essere il SharePoint sito reale, non sharepoint.com/ oppure sites/mysite/home.aspx

  • Prendi nota del nome di dominio della tua istanza SharePoint onlineURL/URLs.

  • (Per l'autenticazione OAuth 2.0) Copia il tuo ID tenant di Microsoft 365. Puoi trovare il tuo ID tenant nelle proprietà del portale di Azure Active Directory o nell'applicazione. OAuth

    Prendi nota del nome utente e della password dell' SharePoint account amministratore e copia l'ID client e il valore segreto del client durante la registrazione di un'applicazione.

    Nota

    Per un'applicazione di esempio, vedi Registrare un'applicazione client in Microsoft Entra ID (precedentemente noto come Azure Active Directory) nel sito Web Microsoft Learn.

  • Alcune autorizzazioni di lettura sono necessarie per connettersi SharePoint quando si registra un'applicazione.

    • SharePoint: AllSites .Read (delegato): legge gli elementi in tutte le raccolte del sito

  • Potrebbe essere necessario disattivare le impostazioni di sicurezza predefinite nel portale di Azure usando un utente amministratore. Per altre informazioni sulla gestione delle impostazioni di sicurezza predefinite nel portale di Azure, consulta la documentazione Microsoft su come abilitare/disabilitare le impostazioni di sicurezza predefinite.

  • Potrebbe essere necessario disattivare l'autenticazione a più fattori (MFA) nel tuo SharePoint account, in modo che Amazon Bedrock non sia bloccato dalla scansione dei tuoi contenuti. SharePoint

Nel tuo AWS account, assicurati di:

  • Memorizza le tue credenziali di autenticazione in un AWS Secrets Manager segreto e annota l'Amazon Resource Name (ARN) del segreto. Segui le istruzioni di configurazione della connessione in questa pagina per includere le coppie chiave-valore che devono essere incluse nel tuo segreto.

  • Includi le autorizzazioni necessarie per connetterti alla tua fonte di dati nel tuo AWS Identity and Access Management (IAM) politica di ruolo/autorizzazioni per la tua knowledge base. Per informazioni sulle autorizzazioni richieste per questa fonte di dati da aggiungere alla knowledge base IAM ruolo, vedi Autorizzazioni per accedere alle fonti di dati.

Nota

Se usi la console, puoi andare a AWS Secrets Manager per aggiungere il tuo segreto o utilizzare un segreto esistente come parte della fase di configurazione dell'origine dati. Il IAM il ruolo con tutte le autorizzazioni richieste può essere creato automaticamente come parte dei passaggi della console per la creazione di una knowledge base. Dopo aver configurato l'origine dati e altre configurazioni, IAM il ruolo con tutte le autorizzazioni richieste viene applicato alla base di conoscenza specifica.

Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati.

Configurazione della connessione

Per connetterti alla tua SharePoint istanza, devi fornire le informazioni di configurazione necessarie in modo che Amazon Bedrock possa accedere ai tuoi dati ed eseguirne la scansione. È inoltre necessario seguire il. Prerequisiti

Un esempio di configurazione per questa fonte di dati è incluso in questa sezione.

Per ulteriori informazioni sul rilevamento automatico dei campi del documento, sui filtri di inclusione/esclusione, sulla sincronizzazione incrementale, sulle credenziali di autenticazione segrete e su come funzionano, seleziona quanto segue:

Il connettore di origine dati rileva e scansiona automaticamente tutti i campi di metadati principali dei documenti o dei contenuti. Ad esempio, il connettore dell'origine dati può eseguire la ricerca per indicizzazione dell'equivalente del corpo del documento, del titolo del documento, della data di creazione o modifica del documento o di altri campi principali che potrebbero essere applicati ai documenti.

Importante

Se i tuoi contenuti includono informazioni sensibili, Amazon Bedrock potrebbe rispondere utilizzando informazioni sensibili.

Puoi applicare operatori di filtro ai campi di metadati per migliorare ulteriormente la pertinenza delle risposte. Ad esempio, il documento «epoch_modification_time» o il numero di secondi trascorsi il 1 gennaio 1970 dall'ultimo aggiornamento del documento. Puoi filtrare in base ai dati più recenti, dove «epoch_modification_time» è maggiore di un determinato numero. Per ulteriori informazioni sugli operatori di filtro che puoi applicare ai campi di metadati, consulta Metadati e filtri.

Puoi includere o escludere la scansione di determinati contenuti. Ad esempio, puoi specificare un prefisso di esclusione/un modello di espressione regolare per ignorare la scansione di qualsiasi file che contenga «privato» nel nome del file. È inoltre possibile specificare un prefisso di inclusione/un modello di espressione regolare per includere determinate entità di contenuto o tipi di contenuto. Se specificate un filtro di inclusione ed esclusione ed entrambi corrispondono a un documento, il filtro di esclusione ha la precedenza e il documento non viene sottoposto a scansione.

Un esempio di modello di espressione regolare per escludere o filtrare PDF i file che contengono «privato» nel nome del file:». *privato.*\\ .pdf»

Puoi applicare filtri di inclusione/esclusione ai seguenti tipi di contenuto:

  • Page: Titolo della pagina principale

  • Event: nome dell'evento

  • File: nome del file con estensione per gli allegati e tutti i file del documento

La scansione dei OneNote documenti non è attualmente supportata.

Il connettore per le sorgenti dati esegue la ricerca per indicizzazione dei contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con la Knowledge Base. Amazon Bedrock può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti ed eseguire la scansione dei contenuti modificati dall'ultima sincronizzazione. Quando sincronizzi l'origine dati con la Knowledge Base per la prima volta, per impostazione predefinita tutti i contenuti vengono sottoposti a scansione.

Per sincronizzare la fonte di dati con la knowledge base, utilizza StartIngestionJobAPIo seleziona la knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle origini dati.

Importante

Tutti i dati che sincronizzi dalla tua fonte di dati diventano disponibili per chiunque disponga bedrock:Retrieve delle autorizzazioni per recuperare i dati. Ciò può includere anche tutti i dati con autorizzazioni controllate per l'origine dei dati. Per ulteriori informazioni, consulta Autorizzazioni della Knowledge Base.

(Per l'autenticazione OAuth 2.0) Le tue credenziali di autenticazione segrete in AWS Secrets Manager dovrebbe includere queste coppie chiave-valore:

  • username: SharePoint admin username

  • password: SharePoint admin password

  • clientId: app client ID

  • clientSecret: app client secret

Nota

Il tuo segreto in AWS Secrets Manager devi utilizzare la stessa regione della tua knowledge base.

Console

Di seguito è riportato un esempio di configurazione per la connessione a SharePoint Online per la tua knowledge base Amazon Bedrock. La configurazione della fonte di dati avviene nell'ambito delle fasi di creazione della knowledge base nella console.

  1. Accedi a AWS Management Console utilizzando un IAMruolo con autorizzazioni Amazon Bedrock e apri la console Amazon Bedrock all'indirizzo. https://console.aws.amazon.com/bedrock/

  2. Dal riquadro di navigazione a sinistra, seleziona Knowledge base.

  3. Nella sezione Knowledge base, seleziona Crea knowledge base.

  4. Fornisci i dettagli della knowledge base.

    1. Fornire il nome della knowledge base e la descrizione facoltativa.

    2. Fornire il AWS Identity and Access Management ruolo per le autorizzazioni di accesso necessarie per creare una knowledge base.

      Nota

      Il IAM il ruolo con tutte le autorizzazioni richieste può essere creato automaticamente come parte dei passaggi della console per la creazione di una knowledge base. Dopo aver completato i passaggi per la creazione di una knowledge base, IAM il ruolo con tutte le autorizzazioni richieste viene applicato alla base di conoscenza specifica.

    3. Crea tutti i tag che desideri assegnare alla tua knowledge base.

    Vai alla sezione successiva per configurare la tua fonte di dati.

  5. Scegli SharePoint come fonte di dati e fornisci i dettagli di configurazione della connessione.

    1. Fornisci il nome della fonte di dati e una descrizione opzionale.

    2. Fornisci il tuo SharePoint sitoURL/URLs. Ad esempio, per SharePoint Online, https://yourdomain.sharepoint.com/sites/mysite. URLDevi iniziare con https e contenere sharepoint.com. Il tuo sito URL deve essere il SharePoint sito reale, non sharepoint.com/ oppure sites/mysite/home.aspx

    3. Fornisci il nome di dominio della tua SharePoint istanza.

    Controlla le impostazioni avanzate. Facoltativamente, è possibile modificare le impostazioni predefinite selezionate.

  6. Imposta la chiave di crittografia dei dati transitori e la politica di eliminazione dei dati nelle impostazioni avanzate.

    In KMS key impostazioni, puoi scegliere una chiave personalizzata o utilizzare la chiave di crittografia dei dati fornita di default.

    Durante la conversione dei dati in incorporamenti, Amazon Bedrock crittografa i dati transitori con una chiave che AWS possiede e gestisce, per impostazione predefinita. Puoi usare la tua KMS chiave. Per ulteriori informazioni, consulta Crittografia dell'archiviazione di dati transitoria durante l'importazione dei dati.

    Per le impostazioni della politica di cancellazione dei dati, puoi scegliere tra:

    • Elimina: elimina tutti i dati dall'origine dati convertiti in incorporamenti vettoriali al momento dell'eliminazione di una knowledge base o di una risorsa di origine dati. Nota che l'archivio vettoriale stesso non viene eliminato, ma solo i dati. Questo flag viene ignorato se un AWS l'account viene eliminato.

    • Conserva: conserva tutti i dati della fonte di dati convertiti in incorporamenti vettoriali dopo l'eliminazione di una knowledge base o di una risorsa di origine dati. Tieni presente che l'archivio vettoriale stesso non viene eliminato se elimini una knowledge base o una risorsa di origine dati.

    Continua a configurare la tua fonte di dati.

  7. Fornisci le informazioni di autenticazione per connetterti alla tua SharePoint istanza:

    1. Per l'autenticazione OAuth 2.0, fornisci l'ID del tenant. Puoi trovare l'ID del tenant nelle proprietà del portale di Azure Active Directory o nell'applicazione. OAuth

    2. Per l'autenticazione OAuth 2.0, vai a AWS Secrets Manager per aggiungere le tue credenziali di autenticazione segrete o utilizzare un Amazon Resource Name (ARN) esistente per il segreto che hai creato. Il tuo segreto deve contenere il nome utente e la password dell' SharePoint amministratore, nonché l'ID client e il segreto del client dell'app registrata. Per un'applicazione di esempio, vedi Registrare un'applicazione client in Microsoft Entra ID (precedentemente noto come Azure Active Directory) nel sito Web Microsoft Learn.

    Continua a configurare la tua fonte di dati.

  8. Scegli di utilizzare filtri/modelli di espressioni regolari per includere o escludere determinati contenuti. Altrimenti tutto il contenuto standard viene sottoposto a scansione.

    Continua a configurare la tua fonte di dati.

  9. Scegli le configurazioni di suddivisione in blocchi e analisi predefinite o personalizzate.

    1. Se scegli impostazioni personalizzate, seleziona una delle seguenti opzioni di suddivisione in blocchi:

      • Suddivisione in blocchi a dimensione fissa: il contenuto è suddiviso in blocchi di testo della dimensione approssimativa del token impostata. È possibile impostare il numero massimo di token che non deve superare per ogni blocco e la percentuale di sovrapposizione tra blocchi consecutivi.

      • Suddivisione in blocchi predefinita: il contenuto è suddiviso in blocchi di testo composti da un massimo di 300 token. Se un singolo documento o contenuto contiene meno di 300 token, il documento non viene ulteriormente suddiviso.

      • Suddivisione gerarchica: contenuto organizzato in strutture annidate di blocchi padre-figlio. È possibile impostare la dimensione massima del token del blocco principale e la dimensione massima del token del blocco secondario. È inoltre possibile impostare il numero assoluto di token di sovrapposizione tra blocchi principali consecutivi e blocchi figlio consecutivi.

      • Suddivisione in blocchi semantici: contenuti organizzati in blocchi di testo o gruppi di frasi semanticamente simili. È possibile impostare il numero massimo di frasi che circondano la frase destinataria/corrente da raggruppare (dimensione del buffer). È inoltre possibile impostare la soglia percentile del punto di interruzione per dividere il testo in blocchi significativi. La suddivisione in blocchi semantici utilizza un modello di base. Visualizzazione di Amazon Bedrock prezzi per informazioni sul costo dei modelli di base.

      • Nessuna suddivisione in blocchi: ogni documento viene trattato come un unico blocco di testo. Potresti voler preelaborare i tuoi documenti suddividendoli in file separati.

      Nota

      Non puoi modificare la strategia di suddivisione in blocchi dopo aver creato la fonte di dati.

    2. Puoi scegliere di usare Amazon Bedrockè il modello base per l'analisi dei documenti per analizzare più del testo standard. Ad esempio, è possibile analizzare i dati tabulari all'interno dei documenti con la loro struttura intatta. Visualizzazione di Amazon Bedrock prezzi per informazioni sul costo dei modelli di base.

    3. Puoi scegliere di utilizzare un AWS Lambda funzione per personalizzare la strategia di suddivisione in blocchi e il modo in cui gli attributi/campi dei metadati dei documenti vengono trattati e inseriti. Fornisci il Amazon S3 posizione del bucket per l'input e l'output della funzione Lambda.

    Vai alla sezione successiva per configurare il tuo archivio vettoriale.

  10. Scegli un modello per convertire i dati in incorporamenti vettoriali.

    Crea un archivio vettoriale per consentire Amazon Bedrock per archiviare, aggiornare e gestire gli incorporamenti. Puoi creare rapidamente un nuovo archivio vettoriale o selezionarlo da un archivio vettoriale supportato che hai creato. Attualmente, solo Amazon OpenSearch Serverless Vector Store è disponibile per l'uso con questa fonte di dati. Se crei un nuovo archivio vettoriale, vengono configurati automaticamente una raccolta e un indice di ricerca vettoriale Amazon OpenSearch Serverless con i campi obbligatori. Se selezioni da un archivio vettoriale supportato, devi mappare i nomi dei campi vettoriali e i nomi dei campi di metadati.

    Passate alla sezione successiva per esaminare le configurazioni della knowledge base.

  11. Controlla i dettagli della tua knowledge base. Puoi modificare qualsiasi sezione prima di procedere e creare la tua knowledge base.

    Nota

    Il tempo necessario per creare la knowledge base dipende dalle configurazioni specifiche. Una volta completata la creazione della knowledge base, lo stato della knowledge base cambia e indica che è pronta o disponibile.

    Una volta che la knowledge base è pronta e disponibile, sincronizza la fonte di dati per la prima volta e ogni volta che vuoi mantenere aggiornati i tuoi contenuti. Seleziona la tua knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle fonti di dati.

API

Di seguito è riportato un esempio di configurazione per la connessione a SharePoint Online per la tua knowledge base Amazon Bedrock. Puoi configurare la tua fonte di dati utilizzando API il AWS CLI o supportatoSDK, come Python. Dopo la chiamata CreateKnowledgeBase, chiami CreateDataSourceper creare la fonte di dati contenente le informazioni di connessione. dataSourceConfiguration Ricordati di specificare anche la tua strategia o il tuo approccio alla suddivisione in blocchi vectorIngestionConfiguration e la tua politica di cancellazione dei dati in. dataDeletionPolicy

AWS Command Line Interface

aws bedrock create-data-source \ --name "SharePoint Online connector" \ --description "SharePoint Online data source connector for Amazon Bedrock to use content in SharePoint" \ --knowledge-base-id "your-knowledge-base-id" \ --data-source-configuration file://sharepoint-bedrock-connector-configuration.json \ --data-deletion-policy "DELETE" \ --vector-ingestion-configuration '{"chunkingConfiguration":[{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":[{"maxTokens":"100","overlapPercentage":"10"}]}]}' sharepoint-bedrock-connector-configuration.json { "sharePointConfiguration": { "sourceConfiguration": { "tenantId": "888d0b57-69f1-4fb8-957f-e1f0bedf64de", "hostType": "ONLINE", "domain": "yourdomain", "siteUrls": [ "https://yourdomain.sharepoint.com/sites/mysite" ], "authType": "OAUTH2_CLIENT_CREDENTIALS", "credentialsSecretArn": "arn:aws::secretsmanager:your-region:secret:AmazonBedrock-SharePoint" }, "crawlerConfiguration": { "filterConfiguration": { "type": "PATTERN", "patternObjectFilter": { "filters": [ { "objectType": "File", "inclusionFilters": [ ".*\\.pdf" ], "exclusionFilters": [ ".*private.*\\.pdf" ] } ] } } } }, "type": "SHAREPOINT" }