Esplora le pagine Web per la tua knowledge base Amazon Bedrock - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esplora le pagine Web per la tua knowledge base Amazon Bedrock

Nota

La scansione degli URL Web come fonte di dati è in versione di anteprima ed è soggetta a modifiche.

Il web crawler fornito da Amazon Bedrock si connette e scansiona gli URL che hai selezionato per l'uso nella tua knowledge base di Amazon Bedrock. Puoi eseguire la scansione delle pagine del sito Web in base all'ambito o ai limiti impostati per gli URL selezionati. Puoi eseguire la scansione delle pagine dei siti Web utilizzando la Console di AWS gestione per Amazon Bedrock o l'CreateDataSourceAPI (vedi SDK supportati da Amazon Bedrock e). AWS CLI

Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy e tutti gli altri termini di Amazon. Ricorda che devi utilizzare il Web Crawler solo per indicizzare le tue pagine Web o le pagine Web per le quali sei autorizzato a scansionare.

Funzionalità supportate

Il Web Crawler si connette alle pagine HTML ed esegue la scansione a partire dall'URL iniziale, attraversando tutti i link secondari all'interno dello stesso dominio e percorso primari principali. Se una delle pagine HTML fa riferimento a documenti supportati, il Web Crawler recupererà tali documenti, indipendentemente dal fatto che si trovino all'interno dello stesso dominio principale principale. È possibile modificare il comportamento di scansione modificando la configurazione della scansione: vedere. Configurazione della connessione

Quanto segue è supportato per:

  • Seleziona più URL da scansionare

  • Rispetta le direttive robots.txt standard come «Allow» e «Disallow»

  • Limita l'ambito degli URL alla scansione e, facoltativamente, escludi gli URL che corrispondono a uno schema di filtro

  • Limita la velocità di scansione degli URL

  • Visualizza lo stato degli URL visitati durante la scansione in Amazon CloudWatch

Prerequisiti

Per utilizzare il Web Crawler, assicurati di:.

  • Verifica di avere il permesso di eseguire la scansione degli URL nella tua richiesta

Nota

Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy e tutti gli altri termini di Amazon. Ricorda che devi utilizzare il Web Crawler solo per indicizzare le tue pagine Web o le pagine Web per le quali sei autorizzato a scansionare.

Configurazione della connessione

Per ulteriori informazioni sull'ambito di sincronizzazione per la scansione degli URL, i filtri di inclusione/esclusione, l'accesso agli URL, la sincronizzazione incrementale e su come funzionano, seleziona quanto segue:

Puoi limitare l'ambito degli URL da sottoporre a scansione in base alla relazione specifica dell'URL di ogni pagina con gli URL iniziali. Per scansioni più rapide, puoi limitare gli URL a quelli che hanno lo stesso host dell'URL iniziale e i cui percorsi includono il percorso degli URL iniziali. Per scansioni più complete, puoi limitare gli URL a quelli che si trovano nello stesso host o all'interno di qualsiasi sottodominio dell'URL iniziale.

Puoi limitare ulteriormente l'ambito degli URL di cui eseguire la scansione fornendo facoltativamente filtri di inclusione ed esclusione. Si tratta di modelli di espressioni regolari che vengono confrontati con un URL selezionato. Se un URL selezionato corrisponde a un filtro di esclusione, non verrà sottoposto a scansione. Se vengono forniti filtri di inclusione, il crawler tenterà di recuperare un URL solo se corrisponde ad almeno un filtro di inclusione.

È possibile utilizzare il Web Crawler per eseguire la scansione delle pagine dei siti Web per i quali si è autorizzati a eseguire la scansione.

Nota

Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy e tutti gli altri termini di Amazon. Ricorda che devi utilizzare il Web Crawler solo per indicizzare le tue pagine Web o le pagine Web per le quali sei autorizzato a scansionare.

Ogni volta che viene eseguito, il Web Crawler recupera il contenuto di tutti gli URL raggiungibili dagli URL di origine e che corrispondono all'ambito e ai filtri. Per le sincronizzazioni incrementali dopo la prima sincronizzazione di tutti i contenuti, Amazon Bedrock aggiornerà la tua knowledge base con contenuti nuovi e modificati e rimuoverà i vecchi contenuti che non sono più presenti. A volte, il crawler potrebbe non essere in grado di stabilire se il contenuto è stato rimosso dal sito Web; in questo caso, potrebbe non conservare i vecchi contenuti nella tua knowledge base.

Per sincronizzare la tua fonte di dati con la tua knowledge base, utilizza l'StartIngestionJobAPI o seleziona la knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle fonti di dati.

Importante

Tutti i dati che sincronizzi dalla tua fonte di dati diventano disponibili per chiunque disponga bedrock:Retrieve delle autorizzazioni per recuperare i dati. Ciò può includere anche tutti i dati con autorizzazioni controllate per l'origine dei dati. Per ulteriori informazioni, consulta Autorizzazioni della Knowledge Base.

Console

I seguenti passaggi configurano Web Crawler per la tua knowledge base Amazon Bedrock. La configurazione di Web Crawler fa parte delle fasi di creazione della knowledge base nella console.

  1. Accedi all' AWS Management Console utilizzo di un ruolo IAM con autorizzazioni Amazon Bedrock e apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/.

  2. Dal riquadro di navigazione a sinistra, seleziona Knowledge base.

  3. Nella sezione Knowledge base, seleziona Crea knowledge base.

  4. Fornisci i dettagli della knowledge base.

    1. Fornire il nome della knowledge base e la descrizione facoltativa.

    2. Fornisci il AWS Identity and Access Management ruolo per le autorizzazioni di accesso necessarie per creare una knowledge base.

      Nota

      Il IAM ruolo con tutte le autorizzazioni richieste può essere creato automaticamente come parte dei passaggi della console per la creazione di una knowledge base. Dopo aver completato i passaggi per la creazione di una knowledge base, il IAM ruolo con tutte le autorizzazioni richieste viene applicato alla knowledge base specifica.

    3. Crea tutti i tag che desideri assegnare alla tua knowledge base.

    Vai alla sezione successiva per configurare la tua fonte di dati.

  5. Scegli Web Crawler come fonte di dati e fornisci i dettagli di configurazione.

    (Facoltativo) Modifica il nome dell'origine dati predefinita e inserisci una descrizione.

  6. Fornisci gli URL di origine degli URL che desideri sottoporre a scansione. Puoi aggiungere fino a 9 URL aggiuntivi selezionando Aggiungi URL di origine. Fornendo un URL di origine, confermi di essere autorizzato a eseguire la scansione del relativo dominio.

  7. Controlla le impostazioni avanzate. Facoltativamente, è possibile modificare le impostazioni predefinite selezionate.

    Per KMS key le impostazioni, puoi scegliere una chiave personalizzata o utilizzare la chiave di crittografia dei dati fornita di default.

    Durante la conversione dei dati in incorporamenti, Amazon Bedrock crittografa i dati transitori con una chiave AWS proprietaria e gestita, per impostazione predefinita. Puoi usare la tua chiave KMS. Per ulteriori informazioni, consulta Crittografia dell'archiviazione di dati transitoria durante l'importazione dei dati.

    Per le impostazioni della politica di cancellazione dei dati, puoi scegliere tra:

    • Elimina: elimina tutti i dati appartenenti alla sorgente dati dal vector store dopo l'eliminazione di una knowledge base o di una risorsa di origine dati. Nota che l'archivio vettoriale sottostante in sé non viene eliminato, ma solo i dati. Questo flag viene ignorato se un AWS account viene eliminato.

    • Conserva: conserva tutti i dati nell'archivio vettoriale dopo l'eliminazione di una knowledge base o di una risorsa di origine dati.

  8. Seleziona l'ambito di sincronizzazione. Seleziona Predefinito, Solo host o Sottodomini. Inserisci i valori per il filtro di inclusione ed esclusione per limitare ulteriormente l'ambito della ricerca per indicizzazione. Ogni volta che viene eseguito, il web crawler recupera il contenuto di tutti gli URL raggiungibili dagli URL di origine e che corrispondono all'ambito e ai filtri. Per le sincronizzazioni incrementali dopo la prima volta, Amazon Bedrock aggiornerà la tua knowledge base con contenuti nuovi e modificati e rimuoverà i vecchi contenuti che non sono più presenti. Per scansioni più complete, puoi limitare gli URL a quelli con lo stesso dominio principale degli URL iniziali. Configurando l'origine dati per eseguire la scansione di un sito Web, confermi di essere autorizzato a farlo.

  9. Immettere la limitazione massima della velocità di scansione. Inserisci URL compresi tra 1 e 300 URL per host al minuto. Una maggiore velocità di scansione aumenta i costi ma richiede meno tempo.

  10. Per URL Pattern (opzionale) puoi aggiungere Includi modelli o Escludi modelli inserendo il modello di espressione regolare nella casella. Puoi aggiungere fino a 25 pattern di filtro di inclusione e 25 di esclusione selezionando Aggiungi nuovo pattern.

  11. Scegli le configurazioni di suddivisione in blocchi e analisi predefinite o personalizzate.

    1. Se scegli impostazioni personalizzate, seleziona una delle seguenti opzioni di suddivisione in blocchi:

      • Suddivisione in blocchi a dimensione fissa: il contenuto è suddiviso in blocchi di testo della dimensione approssimativa del token impostata. È possibile impostare il numero massimo di token che non deve superare per ogni blocco e la percentuale di sovrapposizione tra blocchi consecutivi.

      • Suddivisione in blocchi predefinita: il contenuto è suddiviso in blocchi di testo composti da un massimo di 300 token. Se un singolo documento o contenuto contiene meno di 300 token, il documento non viene ulteriormente suddiviso.

      • Suddivisione gerarchica: contenuto organizzato in strutture annidate di blocchi padre-figlio. È possibile impostare la dimensione massima del token del blocco principale e la dimensione massima del token del blocco secondario. È inoltre possibile impostare il numero assoluto di token di sovrapposizione tra ogni blocco principale e il genitore con ogni figlio.

      • Suddivisione in blocchi semantici: contenuti organizzati in blocchi di testo o gruppi di frasi semanticamente simili. È possibile impostare il numero massimo di frasi che circondano la frase destinataria/corrente da raggruppare (dimensione del buffer). È inoltre possibile impostare la soglia percentile del punto di interruzione per dividere il testo in blocchi significativi.

      • Nessuna suddivisione in blocchi: ogni documento viene trattato come un unico blocco di testo. Potresti voler preelaborare i tuoi documenti suddividendoli in file separati.

      Nota

      Non puoi modificare la strategia di suddivisione in blocchi dopo aver creato la fonte di dati.

    2. Puoi scegliere di utilizzare il modello Amazon Bedrock di base per l'analisi dei documenti per analizzare più del testo standard. Ad esempio, è possibile analizzare i dati tabulari all'interno dei documenti con la loro struttura intatta. Visualizza Amazon Bedrock i prezzi per informazioni sul costo dei modelli Foundation.

    3. Puoi scegliere di utilizzare una AWS Lambda funzione per personalizzare la tua strategia di suddivisione in blocchi e il modo in cui gli attributi/campi dei metadati dei documenti vengono trattati e inseriti. Fornisci la posizione del Amazon S3 bucket per l'input e l'output della funzione Lambda.

    Vai alla sezione successiva per configurare il tuo archivio vettoriale.

  12. Scegli un modello per convertire i dati in incorporamenti vettoriali.

    Crea un archivio vettoriale per consentire ad Amazon Bedrock di archiviare, aggiornare e gestire gli incorporamenti. Puoi creare rapidamente un nuovo archivio vettoriale o selezionarlo da un archivio vettoriale supportato che hai creato. Se crei un nuovo archivio vettoriale, vengono configurati automaticamente una raccolta e un indice di ricerca vettoriale Amazon OpenSearch Serverless con i campi obbligatori. Se selezioni da un archivio vettoriale supportato, devi mappare i nomi dei campi vettoriali e i nomi dei campi di metadati.

    Passate alla sezione successiva per esaminare le configurazioni della knowledge base.

  13. Controlla i dettagli della tua knowledge base. Puoi modificare qualsiasi sezione prima di procedere e creare la tua knowledge base.

    Nota

    Il tempo necessario per creare la knowledge base dipende dalla quantità di dati che si inseriscono e dalle configurazioni specifiche. Al termine della creazione della knowledge base, lo stato della knowledge base cambia in Pronto.

    Una volta che la knowledge base è pronta o ha completato la creazione, sincronizza la fonte di dati per la prima volta e ogni volta che desideri mantenere aggiornati i contenuti. Seleziona la tua knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle fonti di dati.

CLI

Di seguito è riportato un esempio di configurazione di Web Crawler per la tua knowledge base Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ] } }, "type": "WEB" }