Amazon Kendra Connettore Web Crawler v2.0 - Amazon Kendra

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon Kendra Connettore Web Crawler v2.0

È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.

È possibile eseguire la scansione solo di siti Web pubblici o siti Web interni all'azienda che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se ricevi un errore durante la ricerca per indicizzazione di un sito Web, è possibile che il sito Web non sia in grado di eseguire la ricerca per indicizzazione. Per eseguire la scansione dei siti Web interni, è possibile configurare un proxy Web. Il proxy web deve essere rivolto al pubblico. Puoi anche utilizzare l'autenticazione per accedere e scansionare i siti Web.

Amazon Kendra Web Crawler v2.0 utilizza il pacchetto web crawler Selenium e un driver Chromium. Amazon Kendra aggiorna automaticamente la versione di Selenium e il driver Chromium utilizzando Continuous Integration (CI).

Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon e tutti gli altri termini di Amazon. Ricorda che devi utilizzare Amazon Kendra Web Crawler solo per indicizzare le tue pagine Web o le pagine Web che hai l'autorizzazione a indicizzare. Per informazioni su come impedire a Amazon Kendra Web Crawler di indicizzare i tuoi siti Web, consulta. Configurazione del file per Web Crawler robots.txtAmazon Kendra . L'uso improprio di Amazon Kendra Web Crawler per eseguire una scansione aggressiva di siti Web o pagine Web di cui non si è proprietari non è considerato un uso accettabile.

Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati

Nota

Il connettore Web Crawler v2.0 non supporta la scansione di elenchi di siti Web da bucket crittografati. AWS KMS Amazon S3 Supporta solo la crittografia lato server con chiavi gestite. Amazon S3

Importante

La creazione di connettori Web Crawler v2.0 non è supportata da. AWS CloudFormation Utilizza il connettore Web Crawler v1.0 se hai bisogno di assistenza. AWS CloudFormation

Funzionalità supportate

  • Mappature dei campi

  • Filtri di inclusione/esclusione

  • Sincronizzazione completa e incrementale dei contenuti

  • Proxy Web

  • Autenticazione di base, NTLM/Kerberos, SAML e basata su moduli per i tuoi siti Web

  • Virtual Private Cloud (VPC) (Cloud privato virtuale (VPC)

Prerequisiti

Prima di utilizzarla Amazon Kendra per indicizzare i siti Web, controlla i dettagli dei siti Web e degli account. AWS

Per i tuoi siti Web, assicurati di disporre di:

  • Hai copiato gli URL iniziali o della mappa del sito web che desideri indicizzare. Puoi memorizzare gli URL in un file di testo e caricarlo in un bucket. Amazon S3 Ogni URL nel file di testo deve essere formattato su una riga separata. Se desideri archiviare le tue Sitemap in un Amazon S3 bucket, assicurati di aver copiato il codice XML della Sitemap e di averlo salvato in un file XML. Puoi anche raggruppare più file XML della Sitemap in un file ZIP.

    Nota

    (On-premise/server) Amazon Kendra verifica se le informazioni sull'endpoint incluse sono le stesse informazioni sull'endpoint specificate nei AWS Secrets Manager dettagli di configurazione dell'origine dati. In questo modo si evita il problema del confuso vicario, ossia un problema di sicurezza in cui un utente non è autorizzato a eseguire un'azione ma lo utilizza Amazon Kendra come proxy per accedere al segreto configurato ed eseguire l'azione. Se successivamente modifichi le informazioni sull'endpoint, devi creare un nuovo segreto per sincronizzare queste informazioni.

  • Per i siti Web che richiedono l'autenticazione di base, NTLM o Kerberos:

    • Ha annotato le credenziali di autenticazione del sito Web, che includono un nome utente e una password.

      Nota

      Amazon Kendra Web Crawler v2.0 supporta il protocollo di autenticazione NTLM che include l'hashing delle password e il protocollo di autenticazione Kerberos che include la crittografia delle password.

  • Per i siti Web che richiedono l'autenticazione SAML o tramite modulo di accesso:

    • Hai annotato le credenziali di autenticazione del tuo sito Web, che includono un nome utente e una password.

    • Ha copiato gli XPaths (XML Path Language) del campo del nome utente (e del pulsante del nome utente se si utilizza SAML), del campo della password e del pulsante e ha copiato l'URL della pagina di accesso. Puoi trovare gli XPath degli elementi utilizzando gli strumenti di sviluppo del tuo browser web. Gli XPaths di solito seguono questo formato:. //tagname[@Attribute='Value']

      Nota

      Amazon Kendra Web Crawler v2.0 utilizza un browser Chrome headless e le informazioni contenute nel modulo per autenticare e autorizzare l'accesso con un URL protetto da OAuth 2.0.

  • Facoltativo: hai copiato il nome host e il numero di porta del server proxy Web se desideri utilizzare un proxy Web per connetterti ai siti Web interni di cui desideri eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.

  • Facoltativo: hai copiato l'ID di sottorete del cloud privato virtuale (VPC) se desideri utilizzare un VPC per connetterti ai siti Web interni da sottoporre a scansione. Per ulteriori informazioni, consulta Configurazione di un. Amazon VPC

  • Selezionato, ogni documento della pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. Gli ID dei documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo AWS account, assicurati di avere:

  • Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.

  • Hai creato un IAM ruolo per la tua fonte di dati e, se utilizzi l'API, hai annotato il nome Amazon Resource del IAM ruolo.

    Nota

    Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.

  • Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.

    Nota

    Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e versioni dei connettori 1.0 e 2.0 (ove applicabile).

Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti la tua origine web crawler dati a. Amazon Kendra Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.

Istruzioni di connessione

Per connetterti Amazon Kendra alla tua fonte di web crawler dati, devi fornire i dettagli necessari della tua origine web crawler dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non hai ancora configurato web crawler Amazon Kendra SeePrerequisiti.

Console

Per connettersi Amazon Kendra a web crawler

  1. Accedi a AWS Management Console e apri la Amazon Kendra console.

  2. Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

    Nota

    Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.

  3. Nella pagina Guida introduttiva, scegli Aggiungi origine dati.

  4. Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".

  5. Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:

    1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.

    2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.

    3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.

    4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS

    5. Seleziona Successivo.

  6. Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:

    1. Sorgente: scegli tra URL di origine, Sitemap di origine, file URL di origine, file Sitemap di origine. Se scegli di utilizzare un file di testo che include un elenco di un massimo di 100 URL iniziali, specifica il percorso del bucket in cui è archiviato il file. Amazon S3 Se scegli di utilizzare un file XML Sitemap, specifichi il percorso del Amazon S3 bucket in cui è archiviato il file. Puoi anche raggruppare più file XML della mappa del sito in un file ZIP. Altrimenti, puoi inserire manualmente fino a 10 URL iniziali o di punto di partenza e fino a tre URL della mappa del sito.

      Nota

      Se desideri eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso degli URL elencati nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, anche gli URL elencati in questa pagina della mappa del sito devono utilizzare l'URL di base "». https://example.com/

      Se i tuoi siti Web richiedono l'autenticazione per accedere ai siti Web, puoi scegliere ether basic, NTLM/Kerberos, SAML o l'autenticazione tramite modulo. Altrimenti, scegli l'opzione senza autenticazione.

      Nota

      Se desideri modificare in un secondo momento la tua fonte di dati per cambiare gli URL iniziali con autenticazione alle sitemap, devi creare una nuova fonte di dati. Amazon Kendra configura l'origine dati utilizzando le informazioni sull'endpoint degli URL iniziali nel Secrets Manager segreto per l'autenticazione e pertanto non può riconfigurare l'origine dati quando si passa alle sitemap.

      1. AWS Secrets Manager segreto: se i tuoi siti Web richiedono la stessa autenticazione per accedere ai siti Web, scegli un segreto esistente o creane uno nuovo Secrets Manager per memorizzare le credenziali del sito Web. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.

        Se hai scelto l'autenticazione di base o NTML/Kerberos, inserisci un nome per il segreto, oltre al nome utente e alla password. Il protocollo di autenticazione NTLM include l'hashing delle password e il protocollo di autenticazione Kerberos include la crittografia delle password.

        Se hai scelto l'autenticazione SAML o Form, inserisci un nome per il segreto, oltre al nome utente e alla password. Usa XPath per il campo del nome utente (e XPath per il pulsante del nome utente se usi SAML). Usa XPaths per il campo e il pulsante della password e l'URL della pagina di accesso. Puoi trovare gli XPaths (XML Path Language) degli elementi utilizzando gli strumenti di sviluppo del tuo browser web. Gli XPaths di solito seguono questo formato:. //tagname[@Attribute='Value']

    2. (Facoltativo) Proxy Web: immettere il nome host e il numero di porta del server proxy che si desidera utilizzare per connettersi a siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè "a.example.com" e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.

    3. Virtual Private Cloud (VPC): puoi scegliere di utilizzare un VPC. In tal caso, è necessario aggiungere sottoreti e gruppi di sicurezza VPC.

    4. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.

      Nota

      IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.

    5. Seleziona Successivo.

  7. Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:

    1. Ambito di sincronizzazione: imposta i limiti per la scansione delle pagine Web, compresi i domini, le dimensioni dei file e i collegamenti, e filtra gli URL utilizzando modelli regex.

      1. (Facoltativo) Intervallo di domini: scegli se eseguire la scansione solo dei domini dei siti Web, dei domini con sottodomini o anche di altri domini a cui le pagine Web rimandano. Per impostazione predefinita, esegue la scansione Amazon Kendra solo dei domini dei siti Web da sottoporre a scansione.

      2. (Facoltativo) Configurazione aggiuntiva: imposta le seguenti impostazioni:

        • Profondità di scansione: la «profondità» o il numero di livelli dal livello iniziale alla scansione. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.

        • Dimensione massima del file: la dimensione massima in MB di una pagina Web o di un allegato da sottoporre a scansione.

        • Numero massimo di link per pagina: il numero massimo di URL su una singola pagina Web da sottoporre a scansione.

        • Limitazione massima della velocità di scansione: il numero massimo di URL sottoposti a scansione per host del sito Web al minuto.

        • File: consente di eseguire la scansione dei file a cui si collegano le pagine Web.

        • Scansiona e indicizza gli URL: aggiungi modelli di espressioni regolari per includere o escludere la scansione di determinati URL e l'indicizzazione di eventuali collegamenti ipertestuali su queste pagine Web con URL.

    2. Modalità di sincronizzazione: scegli come aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione.

      • Sincronizzazione completa: indicizza di nuovo tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.

      • Sincronizzazione nuova, modificata ed eliminata: indicizza solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

    3. Pianificazione dell'esecuzione della sincronizzazione: per Frequenza, scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra

    4. Seleziona Successivo.

  8. Nella pagina Imposta mappature dei campi, inserisci le seguenti informazioni:

    1. Seleziona uno dei campi predefiniti Amazon Kendra generati delle pagine Web e dei file che desideri mappare all'indice.

    2. Seleziona Successivo.

  9. Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connettersi Amazon Kendra a web crawler

È necessario specificare un codice JSON dello schema dell'origine dati utilizzando l'TemplateConfigurationAPI. È necessario fornire le seguenti informazioni:

  • Origine dati: specifica il tipo di origine dati come WEBCRAWLERV2 quando usi lo schema TemplateConfigurationJSON. Specificate anche l'origine dati come TEMPLATE quando chiamate l'CreateDataSourceAPI.

  • URL: specifica gli URL iniziali o del punto di partenza dei siti Web o gli URL della mappa del sito dei siti Web di cui desideri eseguire la scansione. Puoi specificare il percorso di un Amazon S3 bucket che memorizza il tuo elenco di URL iniziali. Ogni URL nel file di testo per gli URL iniziali deve essere formattato su una riga separata. Puoi anche specificare il percorso di un Amazon S3 bucket che memorizza i file XML della mappa del sito. Puoi raggruppare più file Sitemap in un file ZIP e archiviare il file ZIP nel tuo bucket. Amazon S3

    Nota

    Se vuoi eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso degli URL elencati nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, anche gli URL elencati in questa pagina della mappa del sito devono utilizzare l'URL di base "». https://example.com/

  • Modalità di sincronizzazione: specifica come Amazon Kendra aggiornare l'indice quando il contenuto della fonte di dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione. Puoi scegliere tra:

    • FORCED_FULL_CRAWLper indicizzare nuovamente tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.

    • FULL_CRAWLper indicizzare solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.

  • Autenticazione: se i tuoi siti Web richiedono la stessa autenticazioneBasicAuth, NTLM_KerberosSAML, o Form autenticazione. Se i tuoi siti Web non richiedono l'autenticazione, specificaNoAuthentication.

  • Amazon Resource Name (ARN) segreto: se i tuoi siti Web richiedono l'autenticazione di base, NTLM o Kerberos, fornisci un codice segreto che memorizza le credenziali di autenticazione del nome utente e della password. Fornisci l'Amazon Resource Name (ARN) di un AWS Secrets Manager segreto. Il segreto viene archiviato in una struttura JSON con le seguenti chiavi:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password" }

    Se i tuoi siti Web richiedono l'autenticazione SAML, il segreto viene archiviato in una struttura JSON con le seguenti chiavi:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password", "userNameFieldXpath": "XPath for user name field", "userNameButtonXpath": "XPath for user name button", "passwordFieldXpath": "XPath for password field", "passwordButtonXpath": "XPath for password button", "loginPageUrl": "Full URL for website login page" }

    Se i tuoi siti Web richiedono l'autenticazione tramite modulo, il segreto viene archiviato in una struttura JSON con le seguenti chiavi:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password", "userNameFieldXpath": "XPath for user name field", "passwordFieldXpath": "XPath for password field", "passwordButtonXpath": "XPath for password button", "loginPageUrl": "Full URL for website login page" }

    Puoi trovare gli XPaths (XML Path Language) degli elementi utilizzando gli strumenti di sviluppo del tuo browser web. Gli XPaths di solito seguono questo formato:. //tagname[@Attribute='Value']

    Puoi anche fornire le credenziali del proxy web utilizzando and AWS Secrets Manager secret.

  • IAM ruolo: specifica RoleArn quando chiami CreateDataSource per fornire a un IAM ruolo le autorizzazioni per accedere al Secrets Manager segreto e per chiamare le API pubbliche richieste per il connettore del crawler Web e. Amazon Kendra Per ulteriori informazioni, consulta IAM Ruoli per le fonti di dati del web crawler.

Puoi anche aggiungere le seguenti funzionalità opzionali:

  • Virtual Private Cloud (VPC): VpcConfiguration specifica quando si chiama. CreateDataSource Per ulteriori informazioni, consulta Configurazione Amazon Kendra per l'utilizzo di un Amazon VPC.

  • Intervallo di domini: scegli se eseguire la scansione dei domini dei siti Web con solo sottodomini o anche di altri domini a cui si collegano le pagine Web. Per impostazione predefinita, esegue la scansione Amazon Kendra solo dei domini dei siti Web che desideri sottoporre a scansione.

  • La «profondità» o il numero di livelli dal livello iniziale al crawl. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.

  • Il numero massimo di URL su una singola pagina Web da sottoporre a scansione.

  • La dimensione massima in MB di una pagina Web o di un allegato da sottoporre a scansione.

  • Il numero massimo di URL di cui viene eseguita la ricerca per indicizzazione per host di sito Web al minuto.

  • L'host del proxy Web e il numero di porta per la connessione e la scansione dei siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè "a.example.com" e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.

  • Filtri di inclusione ed esclusione: specificate se includere o escludere la scansione di determinati URL e l'indicizzazione di eventuali collegamenti ipertestuali su queste pagine Web con URL.

    Nota

    La maggior parte delle fonti di dati utilizza modelli di espressioni regolari, che sono modelli di inclusione o esclusione denominati filtri. Se si specifica un filtro di inclusione, viene indicizzato solo il contenuto che corrisponde al filtro di inclusione. Qualsiasi documento che non corrisponde al filtro di inclusione non viene indicizzato. Se si specifica un filtro di inclusione ed esclusione, i documenti che corrispondono al filtro di esclusione non vengono indicizzati, anche se corrispondono al filtro di inclusione.

  • Mappature dei campi: scegli di mappare i campi delle pagine Web e dei file di pagine Web ai campi dell'indice. Amazon Kendra Per ulteriori informazioni, consulta la sezione Mappatura dei campi di origine dei dati.

Per un elenco di altre importanti chiavi JSON da configurare, consulta lo schema del modello Amazon Kendra Web Crawler.