Amazon Kendra Connettore Web Crawler v1.0 - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon Kendra Connettore Web Crawler v1.0

È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.

È possibile eseguire la scansione solo di siti Web pubblici e siti Web che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se ricevi un errore durante la ricerca per indicizzazione di un sito Web, è possibile che il sito Web non sia in grado di eseguire la ricerca per indicizzazione. Per eseguire la scansione dei siti Web interni, è possibile configurare un proxy Web. Il proxy web deve essere rivolto al pubblico.

Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon e tutti gli altri termini di Amazon. Ricorda che devi utilizzare Amazon Kendra Web Crawler solo per indicizzare le tue pagine Web o le pagine Web che hai l'autorizzazione a indicizzare. Per informazioni su come impedire a Amazon Kendra Web Crawler di indicizzare i tuoi siti Web, consulta. Configurazione del file per Web Crawler robots.txtAmazon Kendra

Nota

L'uso improprio di Amazon Kendra Web Crawler per eseguire una scansione aggressiva di siti Web o pagine Web di cui non sei proprietario non è considerato un uso accettabile.

Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati

Funzionalità supportate

  • Proxy Web

  • Filtri di inclusione/esclusione

Prerequisiti

Prima di utilizzarli Amazon Kendra per indicizzare i tuoi siti web, controlla i dettagli dei tuoi siti web e dei tuoi account. AWS

Per i tuoi siti Web, assicurati di disporre di:

  • Hai copiato gli URL iniziali o della mappa del sito web che desideri indicizzare.

  • Per i siti Web che richiedono l'autenticazione di base: annota il nome utente e la password e copia il nome host del sito Web e il numero di porta.

  • Facoltativo: ha copiato il nome host del sito Web e il numero di porta se si desidera utilizzare un proxy Web per connettersi ai siti Web interni di cui si desidera eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.

  • Selezionato, ogni documento di pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. Gli ID dei documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo AWS account, assicurati di avere:

  • Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.

  • Hai creato un IAM ruolo per la tua origine dati e, se utilizzi l'API, hai annotato l'ARN del IAM ruolo.

    Nota

    Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.

  • Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.

    Nota

    Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e versioni dei connettori 1.0 e 2.0 (ove applicabile).

Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti la tua origine web crawler dati a. Amazon Kendra Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.

Istruzioni di connessione

Per connetterti Amazon Kendra alla tua fonte di web crawler dati, devi fornire i dettagli necessari della tua origine web crawler dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non hai ancora configurato web crawler Amazon Kendra SeePrerequisiti.

Console

Per connettersi Amazon Kendra a web crawler

  1. Accedi a AWS Management Console e apri la Amazon Kendra console.

  2. Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

    Nota

    Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.

  3. Nella pagina Guida introduttiva, scegli Aggiungi origine dati.

  4. Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".

  5. Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:

    1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.

    2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.

    3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.

    4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS

    5. Seleziona Successivo.

  6. Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:

    1. Per Source, scegli tra URL di origine e Sitemap di origine a seconda del caso d'uso e inserisci i valori per ciascuna di esse.

      Puoi aggiungere fino a 10 URL di origine e tre Sitemap.

      Nota

      Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso degli URL elencati nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, anche gli URL elencati in questa pagina della mappa del sito devono utilizzare l'URL di base "». https://example.com/

    2. (Facoltativo) Per il proxy Web, inserisci le seguenti informazioni:

      1. Nome host: il nome host in cui è richiesto il proxy Web.

      2. Numero di porta: la porta utilizzata dal protocollo di trasporto degli URL dell'host. Il numero di porta deve essere un valore numerico compreso tra 0 e 65535.

      3. Per le credenziali del proxy Web: se la connessione al proxy Web richiede l'autenticazione, scegli un segreto esistente o crea un nuovo segreto per archiviare le credenziali di autenticazione. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.

      4. Inserisci le seguenti informazioni nella finestra Crea un AWS Secrets Manager Secrets Manager segreto:

        1. Nome segreto: un nome per il tuo segreto. Il prefisso 'AmazonKendra-WebCrawler-' viene aggiunto automaticamente al nome segreto.

        2. Per nome utente e password: inserisci queste credenziali di autenticazione di base per i tuoi siti Web.

        3. Selezionare Salva.

    3. (Facoltativo) Host con autenticazione: selezionare per aggiungere altri host con autenticazione.

    4. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.

      Nota

      IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.

    5. Seleziona Successivo.

  7. Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:

    1. Intervallo di scansione: scegli il tipo di pagine Web che desideri sottoporre a scansione.

    2. Profondità di scansione: seleziona il numero di livelli dall'URL iniziale da sottoporre a scansione. Amazon Kendra

    3. Le impostazioni di scansione avanzate e la configurazione aggiuntiva immettono le seguenti informazioni:

      1. Dimensione massima del file: la dimensione massima della pagina Web o degli allegati da sottoporre a scansione. Minimo 0,000001 MB (1 byte). Massimo 50 MB.

      2. Numero massimo di link per pagina: il numero massimo di link sottoposti a scansione per pagina. I link vengono sottoposti a scansione in ordine di apparizione. Minimo 1 link/pagina. Massimo 1000 collegamenti/pagina.

      3. Limitazione massima: il numero massimo di URL sottoposti a scansione per nome host al minuto. Minimo 1 URL/nome host/minuto. Massimo 300 URL/nome host/minuto.

      4. Modelli Regex: aggiungono modelli di espressioni regolari per includere o escludere determinati URL. È possibile aggiungere fino a 100 pattern.

    4. In Pianificazione di esecuzione della sincronizzazione, per Frequenza: scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra

    5. Seleziona Successivo.

  8. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connettersi Amazon Kendra a web crawler

È necessario specificare quanto segue utilizzando l'WebCrawlerConfigurationAPI:

  • URL: specifica gli URL iniziali o del punto di partenza dei siti Web o gli URL della mappa del sito dei siti Web di cui desideri eseguire la scansione utilizzando and. SeedUrlConfigurationSiteMapsConfiguration

    Nota

    Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso degli URL elencati nella pagina della mappa del sito. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, anche gli URL elencati in questa pagina della mappa del sito devono utilizzare l'URL di base "». https://example.com/

  • Secret Amazon Resource Name (ARN): se un sito Web richiede l'autenticazione di base, fornisci il nome host, il numero di porta e un codice segreto che memorizza le credenziali di autenticazione di base del nome utente e della password. L'ARN segreto viene fornito utilizzando l'AuthenticationConfigurationAPI. Il segreto viene archiviato in una struttura JSON con le seguenti chiavi:

    { "username": "user name", "password": "password" }

    È inoltre possibile fornire le credenziali del proxy Web utilizzando un AWS Secrets Manager segreto. L'ProxyConfigurationAPI viene utilizzata per fornire il nome host e il numero di porta del sito Web e, facoltativamente, il codice segreto che memorizza le credenziali del proxy Web.

  • IAM ruolo: specifica RoleArn quando chiami CreateDataSource per fornire a un IAM ruolo le autorizzazioni per accedere al tuo Secrets Manager segreto e per chiamare le API pubbliche richieste per il connettore del crawler Web e. Amazon Kendra Per ulteriori informazioni, consulta IAM Ruoli per le fonti di dati del web crawler.

Puoi anche aggiungere le seguenti funzionalità opzionali:

  • Modalità di scansione: scegli se eseguire la scansione solo dei nomi host dei siti Web, dei nomi host con sottodomini o anche di altri domini a cui si collegano le pagine Web.

  • La «profondità» o il numero di livelli dal livello iniziale alla scansione. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.

  • Il numero massimo di URL su una singola pagina Web da sottoporre a scansione.

  • La dimensione massima in MB di una pagina Web da sottoporre a scansione.

  • Il numero massimo di URL di cui viene eseguita la ricerca per indicizzazione per host di sito Web al minuto.

  • L'host del proxy Web e il numero di porta a cui connettersi e sottoporre a scansione i siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè "a.example.com" e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.

  • Le informazioni di autenticazione per accedere e scansionare i siti Web che richiedono l'autenticazione dell'utente.

  • È possibile estrarre i meta tag HTML come campi utilizzando lo strumento Custom Document Enrichment. Per ulteriori informazioni, consulta la sezione Personalizzazione dei metadati del documento durante il processo di importazione. Per un esempio di estrazione dei meta tag HTML, consulta Esempi CDE.

  • Filtri di inclusione ed esclusione: specificate se includere o escludere determinati URL.

    Nota

    La maggior parte delle fonti di dati utilizza modelli di espressioni regolari, che sono modelli di inclusione o esclusione denominati filtri. Se si specifica un filtro di inclusione, viene indicizzato solo il contenuto che corrisponde al filtro di inclusione. Qualsiasi documento che non corrisponde al filtro di inclusione non viene indicizzato. Se si specifica un filtro di inclusione ed esclusione, i documenti che corrispondono al filtro di esclusione non vengono indicizzati, anche se corrispondono al filtro di inclusione.

Ulteriori informazioni

Per ulteriori informazioni sull'integrazione Amazon Kendra con la tua web crawler fonte di dati, consulta: