Funzionalità supportate Prerequisiti Istruzioni di connessione

Amazon Kendra Connettore Web Crawler v2.0

È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.

È possibile eseguire la scansione solo di siti Web pubblici o siti Web interni all'azienda che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se ricevi un errore durante la ricerca per indicizzazione di un sito Web, è possibile che il sito Web non sia in grado di eseguire la ricerca per indicizzazione. Per eseguire la scansione dei siti Web interni, è possibile configurare un proxy Web. Il proxy web deve essere rivolto al pubblico. Puoi anche utilizzare l'autenticazione per accedere e scansionare i siti Web.

Amazon Kendra Web Crawler v2.0 utilizza il pacchetto web crawler Selenium e un driver Chromium. Amazon Kendra aggiorna automaticamente la versione di Selenium e il driver Chromium utilizzando Continuous Integration (CI).

Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon e tutti gli altri termini di Amazon. Ricorda che devi utilizzare Amazon Kendra Web Crawler solo per indicizzare le tue pagine Web o le pagine Web che hai l'autorizzazione a indicizzare. Per informazioni su come impedire a Amazon Kendra Web Crawler di indicizzare i tuoi siti Web, consulta. Configurazione del file per Web Crawler robots.txtAmazon Kendra . L'uso improprio di Amazon Kendra Web Crawler per eseguire una scansione aggressiva di siti Web o pagine Web di cui non si è proprietari non è considerato un uso accettabile.

Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati

Nota

Il connettore Web Crawler v2.0 non supporta la scansione di elenchi di siti Web da bucket crittografati. AWS KMS Amazon S3 Supporta solo la crittografia lato server con chiavi gestite. Amazon S3

Importante

La creazione di connettori Web Crawler v2.0 non è supportata da. AWS CloudFormation Usa il connettore Web Crawler v1.0 se hai bisogno di assistenza. AWS CloudFormation

Funzionalità supportate

Mappature dei campi
Filtri di inclusione/esclusione
Sincronizzazione completa e incrementale dei contenuti
Proxy Web
Autenticazione di base, NTLM/Kerberos, SAML e basata su moduli per i tuoi siti Web
Virtual Private Cloud (VPC) (Cloud privato virtuale (VPC)

Prerequisiti

Prima di utilizzarla Amazon Kendra per indicizzare i siti Web, verifica i dettagli dei siti Web e degli account. AWS

Per i tuoi siti web, assicurati di avere:

Hai copiato la mappa iniziale o la mappa URLs del sito web che desideri indicizzare. Puoi memorizzarli URLs in un file di testo e caricarlo in un Amazon S3 bucket. Ogni URL nel file di testo deve essere formattato su una riga separata. Se desideri archiviare le tue Sitemap in un Amazon S3 bucket, assicurati di aver copiato il codice XML della Sitemap e di averlo salvato in un file XML. Puoi anche raggruppare più file XML della Sitemap in un file ZIP.

Nota
(On-premise/server) Amazon Kendra verifica se le informazioni sull'endpoint incluse sono le stesse informazioni sull'endpoint specificate nei AWS Secrets Manager dettagli di configurazione dell'origine dati. In questo modo si evita il problema del confuso vicario, ossia un problema di sicurezza in cui un utente non è autorizzato a eseguire un'azione ma lo utilizza Amazon Kendra come proxy per accedere al segreto configurato ed eseguire l'azione. Se successivamente modifichi le informazioni sull'endpoint, devi creare un nuovo segreto per sincronizzare queste informazioni.
Per i siti Web che richiedono l'autenticazione di base, NTLM o Kerberos:
- Ha annotato le credenziali di autenticazione del sito Web, che includono un nome utente e una password.
  
  Nota
  Amazon Kendra Web Crawler v2.0 supporta il protocollo di autenticazione NTLM che include l'hashing delle password e il protocollo di autenticazione Kerberos che include la crittografia delle password.
Per i siti Web che richiedono l'autenticazione SAML o tramite modulo di accesso:
- Hai annotato le credenziali di autenticazione del tuo sito Web, che includono un nome utente e una password.
- Ha copiato XPaths (XML Path Language) del campo del nome utente (e il pulsante del nome utente se si utilizza SAML), del campo della password e del pulsante, e ha copiato l'URL della pagina di accesso. Puoi trovare gli elementi utilizzando gli strumenti XPaths di sviluppo del tuo browser web. XPaths di solito segue questo formato://tagname[@Attribute='Value'].
  
  Nota
  Amazon Kendra Web Crawler v2.0 utilizza un browser Chrome headless e le informazioni contenute nel modulo per autenticare e autorizzare l'accesso con un URL protetto 2.0. OAuth
Facoltativo: hai copiato il nome host e il numero di porta del server proxy Web se desideri utilizzare un proxy Web per connetterti ai siti Web interni di cui desideri eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.
Facoltativo: hai copiato l'ID di sottorete del cloud privato virtuale (VPC) se desideri utilizzare un VPC per connetterti ai siti Web interni da sottoporre a scansione. Per ulteriori informazioni, consulta Configurazione di un. Amazon VPC
Selezionato, ogni documento della pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. IDs I documenti sono globali rispetto a un indice e devono essere univoci per indice.

Nel tuo AWS account, assicurati di avere:

Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.
Hai creato un IAM ruolo per la tua origine dati e, se utilizzi l'API, hai annotato l'Amazon Resource Name del IAM ruolo.

Nota
Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.
Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.

Nota
Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e versioni dei connettori 1.0 e 2.0 (ove applicabile).

Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti il web crawler fonte di dati a Amazon Kendra. Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.

Istruzioni di connessione

Per connetterti Amazon Kendra al tuo web crawler fonte di dati, è necessario fornire i dettagli necessari del web crawler fonte di dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non l'hai ancora configurato web crawler per Amazon Kendra vederePrerequisiti.

Console

Per connettersi Amazon Kendra a web crawler

Accedi a AWS Management Console e apri la Amazon Kendra console.
Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.

Nota
Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.
Nella pagina Guida introduttiva, scegli Aggiungi origine dati.
Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".
Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:
1. In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.
2. (Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.
3. In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.
4. In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS
5. Scegli Next (Successivo).
Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:
1. Fonte: scegli Origine, Sitemap di origine URLs, File di origine, File di origine, URLs file Sitemap di origine. Se scegli di utilizzare un file di testo che include un elenco di un massimo di 100 seed URLs, specifica il percorso del Amazon S3 bucket in cui è archiviato il file. Se scegli di utilizzare un file XML Sitemap, specifichi il percorso del Amazon S3 bucket in cui è archiviato il file. Puoi anche raggruppare più file XML della mappa del sito in un file ZIP. Altrimenti, puoi inserire manualmente fino a 10 punti iniziali o di partenza URLs e fino a tre sitemap URLs.
  
  Nota
  Se vuoi eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".
  
  Se i tuoi siti Web richiedono l'autenticazione per accedere ai siti Web, puoi scegliere ether basic, NTLM/Kerberos, SAML o l'autenticazione tramite modulo. Altrimenti, scegli l'opzione senza autenticazione.
  
  Nota
  Se desideri modificare in un secondo momento la tua fonte di dati per cambiare la tua origine URLs con autenticazione alle sitemap, devi creare una nuova fonte di dati. Amazon Kendra configura la fonte di dati utilizzando le informazioni sull' URLs endpoint seed nella modalità Secrets Manager segreta per l'autenticazione e pertanto non può riconfigurare la fonte di dati quando si passa alle sitemap.
  1. AWS Secrets Manager segreto: se i tuoi siti Web richiedono la stessa autenticazione per accedere ai siti Web, scegli un segreto esistente o creane uno nuovo Secrets Manager per memorizzare le credenziali del sito Web. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.
    
    Se hai scelto l'autenticazione di base o NTML/Kerberos, inserisci un nome per il segreto, oltre al nome utente e alla password. Il protocollo di autenticazione NTLM include l'hashing delle password e il protocollo di autenticazione Kerberos include la crittografia delle password.
    
    Se hai scelto l'autenticazione SAML o Form, inserisci un nome per il segreto, oltre al nome utente e alla password. XPath Utilizzalo per il campo del nome utente (e XPath per il pulsante del nome utente se usi SAML). Utilizzalo XPaths per il campo e il pulsante della password e l'URL della pagina di accesso. Puoi trovare il XPaths (XML Path Language) degli elementi utilizzando gli strumenti di sviluppo del tuo browser web. XPaths di solito seguono questo formato://tagname[@Attribute='Value'].
2. (Facoltativo) Proxy Web: immettere il nome host e il numero di porta del server proxy che si desidera utilizzare per connettersi ai siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè»a.example.com"e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.
3. Virtual Private Cloud (VPC): puoi scegliere di utilizzare un VPC. In tal caso, è necessario aggiungere sottoreti e gruppi di sicurezza VPC.
4. IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.
  
  Nota
  IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.
5. Scegli Next (Successivo).
Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:
1. Ambito di sincronizzazione: imposta i limiti per la scansione delle pagine Web, compresi i domini, le dimensioni dei file e i collegamenti, e URLs filtra utilizzando modelli regex.
  1. (Facoltativo) Intervallo di domini: scegli se eseguire la scansione solo dei domini dei siti Web, dei domini con sottodomini o anche di altri domini a cui le pagine Web rimandano. Per impostazione predefinita, esegue la scansione Amazon Kendra solo dei domini dei siti Web da sottoporre a scansione.
  2. (Facoltativo) Configurazione aggiuntiva: imposta le seguenti impostazioni:
    - Profondità di scansione: la «profondità» o il numero di livelli dal livello iniziale alla scansione. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.
    - Dimensione massima del file: la dimensione massima in MB di una pagina Web o di un allegato da sottoporre a scansione.
    - Numero massimo di link per pagina: il numero massimo di collegamenti URLs su una singola pagina Web da sottoporre a scansione.
    - Limitazione massima della velocità di scansione: il numero massimo di scansioni per host del sito Web al minuto. URLs
    - File: consente di eseguire la scansione dei file a cui si collegano le pagine Web.
    - Scansione e indicizzazione URLs: aggiungi modelli di espressioni regolari per includere o escludere la scansione di determinati collegamenti ipertestuali e l'indicizzazione di eventuali collegamenti URLs ipertestuali su queste pagine Web con URL.
2. Modalità di sincronizzazione: scegli come aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione.
  - Sincronizzazione completa: indicizza di nuovo tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.
  - Sincronizzazione nuova, modificata ed eliminata: indicizza solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.
3. Pianificazione dell'esecuzione della sincronizzazione: per Frequenza, scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra
4. Scegli Next (Successivo).
Nella pagina Imposta mappature dei campi, inserisci le seguenti informazioni:
1. Seleziona uno dei campi predefiniti Amazon Kendra generati delle pagine Web e dei file che desideri mappare all'indice.
2. Scegli Next (Successivo).
Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.

API

Per connettersi Amazon Kendra a web crawler

È necessario specificare un codice JSON dello schema dell'origine dati utilizzando il TemplateConfigurationAPI. È necessario fornire le seguenti informazioni:

Origine dati: specificare il tipo di origine dati come WEBCRAWLERV2 quando si utilizza TemplateConfigurationSchema JSON. Specificate anche l'origine dati come TEMPLATE quando chiamate il CreateDataSourceAPI.
URLs—Specificare l'origine o il punto URLs di partenza dei siti Web o la mappa del sito Web URLs di cui si desidera eseguire la scansione. Puoi specificare il percorso di un Amazon S3 bucket che memorizza il tuo elenco di semi. URLs Ogni URL nel file di testo per seed URLs deve essere formattato su una riga separata. Puoi anche specificare il percorso di un Amazon S3 bucket che memorizza i file XML della mappa del sito. Puoi raggruppare più file Sitemap in un file ZIP e archiviare il file ZIP nel tuo bucket. Amazon S3

Nota
Se vuoi eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della mappa del sito. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".
Modalità di sincronizzazione: specifica come Amazon Kendra aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione. Puoi scegliere tra:
- FORCED_FULL_CRAWLper indicizzare nuovamente tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.
- FULL_CRAWLper indicizzare solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.
Autenticazione: se i tuoi siti Web richiedono la stessa autenticazioneBasicAuth, NTLM_KerberosSAML, o Form autenticazione. Se i tuoi siti Web non richiedono l'autenticazione, specificaNoAuthentication.

Amazon Resource Name (ARN) segreto: se i tuoi siti Web richiedono l'autenticazione di base, NTLM o Kerberos, fornisci un codice segreto che memorizza le credenziali di autenticazione del nome utente e della password. Fornisci l'Amazon Resource Name (ARN) di un AWS Secrets Manager segreto. Il segreto viene archiviato in una struttura JSON con le seguenti chiavi:


{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password"
}

Se i tuoi siti Web richiedono l'autenticazione SAML, il segreto viene archiviato in una struttura JSON con le seguenti chiavi:


{
    "seedUrlsHash": "Hash representation of all seed URLs",                                
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "userNameButtonXpath": "XPath for user name button",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}

Se i tuoi siti Web richiedono l'autenticazione tramite modulo, il segreto viene archiviato in una struttura JSON con le seguenti chiavi:


{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}

Puoi trovare gli elementi XPaths (XML Path Language) utilizzando gli strumenti di sviluppo del tuo browser web. XPaths di solito seguono questo formato://tagname[@Attribute='Value'].

Puoi anche fornire le credenziali del proxy web utilizzando and AWS Secrets Manager secret.

IAM ruolo: specifica RoleArn quando chiami CreateDataSource per fornire a un IAM ruolo le autorizzazioni per accedere al tuo account Secrets Manager segreto e per chiamare il pubblico richiesto APIs per il connettore del crawler Web e. Amazon Kendra Per ulteriori informazioni, consulta IAM Ruoli per le fonti di dati del web crawler.

Puoi anche aggiungere le seguenti funzionalità opzionali:

Virtual Private Cloud (VPC): VpcConfiguration specifica quando si chiama. CreateDataSource Per ulteriori informazioni, consulta Configurazione Amazon Kendra per l'utilizzo di un Amazon VPC.
Intervallo di domini: scegli se eseguire la scansione dei domini dei siti Web con solo sottodomini o anche di altri domini a cui si collegano le pagine Web. Per impostazione predefinita, esegue la scansione Amazon Kendra solo dei domini dei siti Web che desideri sottoporre a scansione.
La «profondità» o il numero di livelli dal livello iniziale al crawl. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.
Il numero massimo di pagine Web da URLs sottoporre a scansione su una singola pagina Web.
La dimensione massima in MB di una pagina Web o di un allegato da sottoporre a scansione.
Il numero massimo di URLs scansioni per host del sito web al minuto.
L'host del proxy Web e il numero di porta a cui connettersi e sottoporre a scansione i siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè»a.example.com"e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.
Filtri di inclusione ed esclusione: specificate se includere o escludere la scansione di determinati collegamenti ipertestuali URLs e l'indicizzazione di eventuali collegamenti ipertestuali su queste pagine Web con URL.

Nota
La maggior parte delle fonti di dati utilizza modelli di espressioni regolari, che sono modelli di inclusione o esclusione denominati filtri. Se si specifica un filtro di inclusione, viene indicizzato solo il contenuto che corrisponde al filtro di inclusione. Qualsiasi documento che non corrisponde al filtro di inclusione non viene indicizzato. Se si specifica un filtro di inclusione ed esclusione, i documenti che corrispondono al filtro di esclusione non vengono indicizzati, anche se corrispondono al filtro di inclusione.
Mappature dei campi: scegli di mappare i campi delle pagine Web e dei file di pagine Web ai campi dell'indice. Amazon Kendra Per ulteriori informazioni, consulta la sezione Mappatura dei campi di origine dei dati.

Per un elenco di altre importanti chiavi JSON da configurare, consulta lo schema del modello Amazon Kendra Web Crawler.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Amazon Kendra Connettore Web Crawler v1.0

Configurazione del file per Web Crawler robots.txt Amazon Kendra