Funzionalità supportate Prerequisiti Configurazione della connessione

Esegui la scansione delle pagine Web per la tua knowledge base

Il web crawler fornito da Amazon Bedrock si connette e esegue la scansione URLs che hai selezionato per l'utilizzo nella tua knowledge base di Amazon Bedrock. Puoi eseguire la scansione delle pagine del sito Web in base all'ambito o ai limiti impostati per le pagine selezionate. URLs Puoi eseguire la scansione delle pagine dei siti Web utilizzando la Console di AWS gestione per Amazon Bedrock o l'CreateDataSourceAPI (vedi Amazon Bedrock supportata SDKs e). AWS CLI Attualmente, solo Amazon OpenSearch Serverless Vector Store è disponibile per l'uso con questa fonte di dati.

Nota

Il connettore di origine dati Web Crawler è in versione di anteprima ed è soggetto a modifiche.

Quando selezioni i siti Web da sottoporre a scansione, devi rispettare la Amazon Acceptable Use Policy e tutti gli altri termini di Amazon. Ricorda che devi utilizzare il Web Crawler solo per indicizzare le tue pagine Web o le pagine Web per le quali sei autorizzato a scansionare e che devi rispettare le configurazioni di robots.txt.

Il Web Crawler rispetta robots.txt in conformità con la RFC 9309

Esistono dei limiti al numero di elementi di contenuto della pagina Web e al numero di MB per elemento di contenuto che possono essere sottoposti a scansione. Vedi Quotas per le basi di conoscenza.

Funzionalità supportate

Il web crawler si connette alle pagine HTML ed esegue la scansione a partire dall'URL iniziale, attraversando tutti i link secondari all'interno dello stesso dominio e percorso principali. Se una delle pagine HTML fa riferimento a documenti supportati, il Web Crawler recupererà tali documenti, indipendentemente dal fatto che si trovino all'interno dello stesso dominio principale principale. È possibile modificare il comportamento di scansione modificando la configurazione della scansione: vedere. Configurazione della connessione

Quanto segue è supportato per:

Seleziona più fonti URLs da sottoporre a scansione e imposta l'ambito in modo che URLs esegua la scansione solo dell'host o includa anche i sottodomini.
Scansiona le pagine web statiche che fanno parte del tuo codice sorgente. URLs
Specificate il suffisso User Agent personalizzato per impostare le regole per il vostro crawler.
Includi o escludi alcuni URLs che corrispondono a un modello di filtro.
Rispetta le direttive robots.txt standard come «Allow» e «Disallow».
Limita l'ambito di scansione ed URLs escludi, facoltativamente, quelli che corrispondono URLs a un modello di filtro.
Limita la velocità di scansione URLs e il numero massimo di pagine da scansionare.
Visualizza lo stato della scansione in Amazon URLs CloudWatch

Prerequisiti

Per utilizzare il Web Crawler, assicurati di:.

Verifica di essere autorizzato a scansionare la tua fonte. URLs
Verifica che il percorso di robots.txt corrispondente alla tua fonte URLs non impedisca la URLs scansione. Il web crawler aderisce agli standard di robots.txt: per impostazione disallow predefinita se robots.txt non viene trovato per il sito web. Il Web Crawler rispetta robots.txt in conformità con la RFC 9309. Puoi anche specificare un suffisso di intestazione User Agent personalizzato per impostare le regole per il tuo crawler. Per ulteriori informazioni, consulta l'accesso agli URL del Web Crawler nelle istruzioni di questa pagina. Configurazione della connessione
Abilita la consegna dei CloudWatch log e segui alcuni esempi di log del Web Crawler per visualizzare lo stato del processo di inserimento dei dati per l'acquisizione di contenuti Web e, se alcuni dati non possono essere recuperati. URLs

Nota

Configurazione della connessione

Per ulteriori informazioni sull'ambito di sincronizzazione per la scansione URLs, inclusion/exclusion i filtri, l'accesso agli URL, la sincronizzazione incrementale e su come funzionano, seleziona quanto segue:

Puoi limitare l'ambito della scansione in base URLs alla relazione specifica tra l'URL di ogni pagina e il seme. URLs Per scansioni più rapide, puoi limitarti URLs a quelle con lo stesso host e lo stesso percorso URL iniziale dell'URL iniziale. Per scansioni più ampie, puoi scegliere di eseguire la scansione URLs con lo stesso host o all'interno di qualsiasi sottodominio dell'URL iniziale.

Puoi scegliere tra le opzioni riportate di seguito.

Impostazione predefinita: limita la scansione alle pagine Web che appartengono allo stesso host e con lo stesso percorso URL iniziale. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/", verranno sottoposti a scansione solo questo percorso e le pagine Web che si estendono da questo percorso, come "agents/». https://aws.amazon.com/bedrock/ I fratelli URLs come "https://aws.amazon.com/ec2/" non vengono sottoposti a scansione, ad esempio.
Solo host: limita la scansione alle pagine Web che appartengono allo stesso host. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/«, verranno scansionate anche le pagine web conhttps://aws.amazon.com" ", come" /ec2». https://aws.amazon.com
Sottodomini: include la scansione di qualsiasi pagina Web con lo stesso dominio principale dell'URL iniziale. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/", qualsiasi pagina web che contiene «amazon.com» (sottodominio) verrà sottoposta a scansione, come "». https://www.amazon.com

Nota

Assicurati di non eseguire la scansione di pagine web potenzialmente eccessive. Non è consigliabile eseguire la scansione di siti Web di grandi dimensioni, come wikipedia.org, senza filtri o limiti di ambito. La scansione di siti Web di grandi dimensioni richiederà molto tempo.

I tipi di file supportati vengono sottoposti a scansione indipendentemente dall'ambito e se non esiste uno schema di esclusione per il tipo di file.

Il Web Crawler supporta siti Web statici.

Puoi anche limitare la velocità di scansione URLs per controllare la limitazione della velocità di scansione. È stato impostato il numero massimo di scansioni per host al minuto URLs . Inoltre, puoi anche impostare il numero massimo (fino a 25.000) di pagine Web totali da sottoporre a scansione. Tieni presente che se il numero totale di pagine Web dell'origine URLs supera il massimo impostato, il sync/ingestion processo di creazione dei dati avrà esito negativo.

Puoi includerne o escluderne alcuni URLs in base al tuo ambito. I tipi di file supportati vengono sottoposti a scansione indipendentemente dall'ambito e se non esiste uno schema di esclusione per il tipo di file. Se specifichi un filtro di inclusione ed esclusione ed entrambi corrispondono a un URL, il filtro di esclusione ha la precedenza e il contenuto web non viene sottoposto a scansione.

Importante

I filtri con pattern di espressioni regolari problematici che portano a un backtracking catastrofico e a uno sguardo al futuro vengono respinti.

Un esempio di modello di filtro per espressioni regolari per escludere URLs che termina con allegati di pagine Web «.pdf» o PDF: «.*\ .pdf$»

È possibile utilizzare il Web Crawler per eseguire la scansione delle pagine dei siti Web per i quali si è autorizzati a eseguire la scansione.

Il Web Crawler rispetta robots.txt in conformità con la RFC 9309

È possibile specificare determinati bot dell'agente utente in modo che «consentano» o «impediscano» all'agente utente di eseguire la scansione del codice sorgente. URLs Puoi modificare il file robots.txt del tuo sito Web per controllare il modo in cui il Web Crawler esegue la scansione del codice sorgente. URLs Il crawler cercherà prima bedrockbot-UUID le regole e poi le regole generiche bedrockbot nel file robots.txt.

Puoi anche aggiungere un suffisso User-Agent che può essere usato per inserire il crawler nella lista consentita nei sistemi di protezione dai bot. Nota che non è necessario aggiungere questo suffisso al robots.txt file per assicurarsi che nessuno possa impersonare la stringa User Agent. Ad esempio, per consentire al Web Crawler di eseguire la scansione di tutto il contenuto del sito Web e impedire la scansione per altri robot, utilizzate la seguente direttiva:


User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Ogni volta che viene eseguito, il Web Crawler recupera i contenuti per tutto ciò URLs che è raggiungibile dall'origine URLs e che corrisponde all'ambito e ai filtri. Per le sincronizzazioni incrementali dopo la prima sincronizzazione di tutti i contenuti, Amazon Bedrock aggiornerà la tua knowledge base con contenuti nuovi e modificati e rimuoverà i vecchi contenuti che non sono più presenti. A volte, il crawler potrebbe non essere in grado di stabilire se il contenuto è stato rimosso dal sito Web; in questo caso, potrebbe non conservare i vecchi contenuti nella tua knowledge base.

Per sincronizzare la tua fonte di dati con la tua knowledge base, utilizza l'StartIngestionJobAPI o seleziona la knowledge base nella console e seleziona Sincronizza nella sezione panoramica delle origini dati.

Importante

Tutti i dati che sincronizzi dalla tua fonte di dati diventano disponibili per chiunque disponga bedrock:Retrieve delle autorizzazioni per recuperare i dati. Ciò può includere anche tutti i dati con autorizzazioni controllate per l'origine dei dati. Per ulteriori informazioni, consulta Autorizzazioni della Knowledge Base.

Console

Connect una fonte di dati Web Crawler alla knowledge base

Segui i passaggi indicati Crea una knowledge base collegandoti a una fonte di dati in Amazon Bedrock Knowledge Bases e scegli Web Crawler come origine dati.
Fornisci un nome e una descrizione facoltativa per l'origine dati.
Fornisci l'origine URLs del file URLs che desideri scansionare. Puoi aggiungerne altri 9 URLs selezionando Aggiungi sorgente URLs. Fornendo un URL di origine, confermi di essere autorizzato a scansionare il relativo dominio.
Nella sezione Impostazioni avanzate, puoi facoltativamente configurare quanto segue:
- Chiave KMS per l'archiviazione di dati transitori. — Puoi crittografare i dati transitori mentre li converti in incorporamenti con la chiave KMS predefinita o con la tua chiave KMS. Chiave gestita da AWS Per ulteriori informazioni, consulta Crittografia dell'archiviazione di dati transitoria durante l'importazione dei dati.
- Politica di cancellazione dei dati: puoi eliminare gli incorporamenti vettoriali per la tua fonte di dati che sono archiviati nel vector store per impostazione predefinita o scegliere di conservare i dati del vector store.
(Facoltativo) Fornite un suffisso user agent per Bedrock-UUID, che identifica il crawler o il bot quando accede a un server web.
Configurate quanto segue nella sezione Ambito di sincronizzazione:
1. Seleziona un intervallo di domini del sito Web per la scansione della fonte: URLs
  - Impostazione predefinita: limita la scansione alle pagine Web che appartengono allo stesso host e con lo stesso percorso URL iniziale. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/", verranno sottoposti a scansione solo questo percorso e le pagine Web che si estendono da questo percorso, come "agents/». https://aws.amazon.com/bedrock/ I fratelli URLs come "https://aws.amazon.com/ec2/" non vengono sottoposti a scansione, ad esempio.
  - Solo host: limita la scansione alle pagine Web che appartengono allo stesso host. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/«, verranno scansionate anche le pagine web conhttps://aws.amazon.com" ", come" /ec2». https://aws.amazon.com
  - Sottodomini: include la scansione di qualsiasi pagina Web con lo stesso dominio principale dell'URL iniziale. Ad esempio, con un URL iniziale di "https://aws.amazon.com/bedrock/", qualsiasi pagina web che contiene «amazon.com» (sottodominio) verrà sottoposta a scansione, come "». https://www.amazon.com
  Nota
  Assicurati di non eseguire la scansione di pagine web potenzialmente eccessive. Non è consigliabile eseguire la scansione di siti Web di grandi dimensioni, come wikipedia.org, senza filtri o limiti di ambito. La scansione di siti Web di grandi dimensioni richiederà molto tempo.
  I tipi di file supportati vengono sottoposti a scansione indipendentemente dall'ambito e se non esiste uno schema di esclusione per il tipo di file.
2. Immettete la limitazione massima della velocità di scansione. Ingerisci URLs tra 1 e 300 URLs per host al minuto. Una velocità di scansione più elevata aumenta il carico ma richiede meno tempo.
3. Inserisci un numero massimo di pagine per la sincronizzazione delle sorgenti dati compreso tra 1 e 25000. Limita il numero massimo di pagine Web scansionate dalla tua fonte. URLs Se le pagine Web superano questo numero, la sincronizzazione delle sorgenti dati avrà esito negativo e non verrà inserita alcuna pagina Web.
4. Per i modelli Regex URL (opzionale) puoi aggiungere modelli di inclusione o esclusione di modelli inserendo il modello di espressione regolare nella casella. Puoi aggiungere fino a 25 pattern di filtro di inclusione e 25 di esclusione selezionando Aggiungi nuovo pattern. I modelli di inclusione ed esclusione vengono sottoposti a scansione in base al tuo ambito. In caso di conflitto, il pattern di esclusione ha la precedenza.
(Facoltativo) Nella sezione Analisi e suddivisione in blocchi dei contenuti, puoi personalizzare la modalità di analisi e suddivisione in blocchi dei dati. Per ulteriori informazioni su queste personalizzazioni, consulta le seguenti risorse:
- Per ulteriori informazioni sulle opzioni di analisi, vedere. Opzioni di analisi per la tua fonte di dati
- Per ulteriori informazioni sulle strategie di suddivisione in blocchi, vedere. Come funziona la suddivisione in blocchi dei contenuti per le knowledge base
  
  avvertimento
  Non è possibile modificare la strategia di suddivisione in blocchi dopo la connessione alla fonte di dati.
- Per ulteriori informazioni su come personalizzare la suddivisione in blocchi dei dati e l'elaborazione dei metadati con una funzione Lambda, consulta. Usa una funzione Lambda di trasformazione personalizzata per definire come vengono importati i dati
Continua a scegliere un modello di incorporamento e un archivio vettoriale. Per visualizzare i passaggi rimanenti, torna Crea una knowledge base collegandoti a una fonte di dati in Amazon Bedrock Knowledge Bases e continua dal passaggio successivo alla connessione dell'origine dati.

API

Per connettere una knowledge base a un'origine dati utilizzando WebCrawler, invia una CreateDataSourcerichiesta a un endpoint di compilazione Agents for Amazon Bedrock, specifica WEB nel type campo di e includi il DataSourceConfigurationcampo. webConfiguration Di seguito è riportato un esempio di configurazione di Web Crawler per la tua knowledge base Amazon Bedrock.


{
    "webConfiguration": {
        "sourceConfiguration": {
            "urlConfiguration": {
                "seedUrls": [{
                    "url": "https://www.examplesite.com"
                }]
            }
        },
        "crawlerConfiguration": {
            "crawlerLimits": {
                "rateLimit": 50,
                "maxPages": 100
            },
            "scope": "HOST_ONLY",
            "inclusionFilters": [
                "https://www\.examplesite\.com/.*\.html"
            ],
            "exclusionFilters": [
                "https://www\.examplesite\.com/contact-us\.html"
            ],
            "userAgent": "CustomUserAgent"
        }
    },
    "type": "WEB"
}

Per ulteriori informazioni sulle personalizzazioni che puoi applicare all'ingestione includendo il campo opzionale, consulta. vectorIngestionConfiguration Personalizza l'inserimento per un'origine dati

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Salesforce

Personalizza

Esegui la scansione delle pagine Web per la tua knowledge base

Nota

Argomenti

Funzionalità supportate

Prerequisiti

Nota

Configurazione della connessione

Nota

Importante

Importante

Connect una fonte di dati Web Crawler alla knowledge base

Nota

avvertimento