Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Amazon Kendra Connettore Web Crawler v2.0
È possibile utilizzare Amazon Kendra Web Crawler per eseguire la scansione e indicizzare le pagine Web.
È possibile eseguire la scansione solo di siti Web pubblici o siti Web interni all'azienda che utilizzano il protocollo di comunicazione sicuro Hypertext Transfer Protocol Secure (HTTPS). Se ricevi un errore durante la ricerca per indicizzazione di un sito Web, è possibile che il sito Web non sia in grado di eseguire la ricerca per indicizzazione. Per eseguire la scansione dei siti Web interni, è possibile configurare un proxy Web. Il proxy web deve essere rivolto al pubblico. Puoi anche utilizzare l'autenticazione per accedere e scansionare i siti Web.
Amazon Kendra Web Crawler v2.0 utilizza il pacchetto web crawler Selenium e un driver Chromium. Amazon Kendra aggiorna automaticamente la versione di Selenium e il driver Chromium utilizzando Continuous Integration (CI).
Quando selezioni i siti Web da indicizzare, devi rispettare la Policy di uso accettabile di Amazon
Per la risoluzione dei problemi relativi al connettore di origine dati del crawler Amazon Kendra Web, consulta. Risoluzione dei problemi relativi alle origini dati
Nota
Il connettore Web Crawler v2.0 non supporta la scansione di elenchi di siti Web da bucket crittografati. AWS KMS Amazon S3 Supporta solo la crittografia lato server con chiavi gestite. Amazon S3
Importante
La creazione di connettori Web Crawler v2.0 non è supportata da. AWS CloudFormation Usa il connettore Web Crawler v1.0 se hai bisogno di assistenza. AWS CloudFormation
Funzionalità supportate
-
Mappature dei campi
-
Filtri di inclusione/esclusione
-
Sincronizzazione completa e incrementale dei contenuti
-
Proxy Web
-
Autenticazione di base, NTLM/Kerberos, SAML e basata su moduli per i tuoi siti Web
-
Virtual Private Cloud (VPC) (Cloud privato virtuale (VPC)
Prerequisiti
Prima di utilizzarla Amazon Kendra per indicizzare i siti Web, verifica i dettagli dei siti Web e degli account. AWS
Per i tuoi siti web, assicurati di avere:
-
Hai copiato la mappa iniziale o la mappa URLs del sito web che desideri indicizzare. Puoi memorizzarli URLs in un file di testo e caricarlo in un Amazon S3 bucket. Ogni URL nel file di testo deve essere formattato su una riga separata. Se desideri archiviare le tue Sitemap in un Amazon S3 bucket, assicurati di aver copiato il codice XML della Sitemap e di averlo salvato in un file XML. Puoi anche raggruppare più file XML della Sitemap in un file ZIP.
Nota
(On-premise/server) Amazon Kendra verifica se le informazioni sull'endpoint incluse sono le stesse informazioni sull'endpoint specificate nei AWS Secrets Manager dettagli di configurazione dell'origine dati. In questo modo si evita il problema del confuso vicario, ossia un problema di sicurezza in cui un utente non è autorizzato a eseguire un'azione ma lo utilizza Amazon Kendra come proxy per accedere al segreto configurato ed eseguire l'azione. Se successivamente modifichi le informazioni sull'endpoint, devi creare un nuovo segreto per sincronizzare queste informazioni.
-
Per i siti Web che richiedono l'autenticazione di base, NTLM o Kerberos:
-
Ha annotato le credenziali di autenticazione del sito Web, che includono un nome utente e una password.
Nota
Amazon Kendra Web Crawler v2.0 supporta il protocollo di autenticazione NTLM che include l'hashing delle password e il protocollo di autenticazione Kerberos che include la crittografia delle password.
-
-
Per i siti Web che richiedono l'autenticazione SAML o tramite modulo di accesso:
-
Hai annotato le credenziali di autenticazione del tuo sito Web, che includono un nome utente e una password.
-
Ha copiato XPaths (XML Path Language) del campo del nome utente (e il pulsante del nome utente se si utilizza SAML), del campo della password e del pulsante, e ha copiato l'URL della pagina di accesso. Puoi trovare gli elementi utilizzando gli strumenti XPaths di sviluppo del tuo browser web. XPaths di solito segue questo formato:
//tagname[@Attribute='Value']
.Nota
Amazon Kendra Web Crawler v2.0 utilizza un browser Chrome headless e le informazioni contenute nel modulo per autenticare e autorizzare l'accesso con un URL protetto 2.0. OAuth
-
-
Facoltativo: hai copiato il nome host e il numero di porta del server proxy Web se desideri utilizzare un proxy Web per connetterti ai siti Web interni di cui desideri eseguire la scansione. Il proxy web deve essere rivolto al pubblico. Amazon Kendra supporta la connessione a server proxy Web supportati da un'autenticazione di base oppure è possibile connettersi senza autenticazione.
-
Facoltativo: hai copiato l'ID di sottorete del cloud privato virtuale (VPC) se desideri utilizzare un VPC per connetterti ai siti Web interni da sottoporre a scansione. Per ulteriori informazioni, consulta Configurazione di un. Amazon VPC
-
Selezionato, ogni documento della pagina Web che desideri indicizzare è unico e tra le altre fonti di dati che intendi utilizzare per lo stesso indice. Ogni fonte di dati che desideri utilizzare per un indice non deve contenere lo stesso documento in tutte le fonti di dati. IDs I documenti sono globali rispetto a un indice e devono essere univoci per indice.
Nel tuo AWS account, assicurati di avere:
-
Hai creato un Amazon Kendra indice e, se utilizzi l'API, hai annotato l'ID dell'indice.
-
Hai creato un IAM ruolo per la tua origine dati e, se utilizzi l'API, hai annotato l'Amazon Resource Name del IAM ruolo.
Nota
Se modifichi il tipo di autenticazione e le credenziali, devi aggiornare il IAM ruolo per accedere all'ID AWS Secrets Manager segreto corretto.
-
Per i siti Web che richiedono l'autenticazione o se utilizzano un proxy Web con autenticazione, memorizzate le credenziali di autenticazione in un AWS Secrets Manager luogo segreto e, se utilizzate l'API, annotate l'ARN del segreto.
Nota
Ti consigliamo di aggiornare o ruotare regolarmente le credenziali e il segreto. Fornisci solo il livello di accesso necessario per la tua sicurezza. Non è consigliabile riutilizzare credenziali e segreti tra diverse fonti di dati e versioni dei connettori 1.0 e 2.0 (ove applicabile).
Se non disponi di un IAM ruolo o di un segreto esistente, puoi utilizzare la console per creare un nuovo IAM ruolo e un Secrets Manager segreto quando connetti il web crawler fonte di dati a Amazon Kendra. Se utilizzi l'API, devi fornire l'ARN di un IAM ruolo e di un Secrets Manager segreto esistenti e un ID di indice.
Istruzioni di connessione
Per connetterti Amazon Kendra al tuo web crawler fonte di dati, è necessario fornire i dettagli necessari del web crawler fonte di dati in modo che Amazon Kendra possa accedere ai tuoi dati. Se non l'hai ancora configurato web crawler per Amazon Kendra vederePrerequisiti.
Per connettersi Amazon Kendra a web crawler
-
Accedi a AWS Management Console e apri la Amazon Kendra console
. -
Dal riquadro di navigazione a sinistra, scegli Indici, quindi scegli l'indice che desideri utilizzare dall'elenco degli indici.
Nota
Puoi scegliere di configurare o modificare le impostazioni del controllo dell'accesso degli utenti in Impostazioni dell'indice.
-
Nella pagina Guida introduttiva, scegli Aggiungi origine dati.
-
Nella pagina Aggiungi origine dati, scegli connettore web crawler, quindi scegli Aggiungi connettore. Se utilizzi la versione 2 (se applicabile), scegli il connettore web crawler con il tag «V2.0".
-
Nella pagina Specificare i dettagli dell'origine dati, inserisci le seguenti informazioni:
-
In Nome e descrizione, per Nome dell'origine dati, inserisci un nome per l'origine dati. Puoi includere trattini ma non spazi.
-
(Facoltativo) Descrizione: immetti una descrizione facoltativa per la tua fonte di dati.
-
In Lingua predefinita: scegli una lingua per filtrare i documenti per l'indice. Se non diversamente specificato, la lingua predefinita è l'inglese. La lingua specificata nei metadati del documento ha la precedenza sulla lingua selezionata.
-
In Tag, per Aggiungi nuovo tag, includi tag opzionali per cercare e filtrare le risorse o tenere traccia dei costi. AWS
-
Scegli Next (Successivo).
-
-
Nella pagina Definisci accesso e sicurezza, inserisci le seguenti informazioni:
-
Fonte: scegli Origine, Sitemap di origine URLs, File di origine, File di origine, URLs file Sitemap di origine. Se scegli di utilizzare un file di testo che include un elenco di un massimo di 100 seed URLs, specifica il percorso del Amazon S3 bucket in cui è archiviato il file. Se scegli di utilizzare un file XML Sitemap, specifichi il percorso del Amazon S3 bucket in cui è archiviato il file. Puoi anche raggruppare più file XML della mappa del sito in un file ZIP. Altrimenti, puoi inserire manualmente fino a 10 punti iniziali o di partenza URLs e fino a tre sitemap URLs.
Nota
Se vuoi eseguire la scansione di una Sitemap, verifica che l'URL di base o principale sia lo stesso URLs indicato nella pagina della Sitemap. Ad esempio, se l'URL della mappa del sito è https://example.com/sitemap-page.html, gli utenti URLs elencati in questa pagina della mappa del sito devono utilizzare anche l'URL di base»https://example.com/".
Se i tuoi siti Web richiedono l'autenticazione per accedere ai siti Web, puoi scegliere ether basic, NTLM/Kerberos, SAML o l'autenticazione tramite modulo. Altrimenti, scegli l'opzione senza autenticazione.
Nota
Se desideri modificare in un secondo momento la tua fonte di dati per cambiare la tua origine URLs con autenticazione alle sitemap, devi creare una nuova fonte di dati. Amazon Kendra configura la fonte di dati utilizzando le informazioni sull' URLs endpoint seed nella modalità Secrets Manager segreta per l'autenticazione e pertanto non può riconfigurare la fonte di dati quando si passa alle sitemap.
-
AWS Secrets Manager segreto: se i tuoi siti Web richiedono la stessa autenticazione per accedere ai siti Web, scegli un segreto esistente o creane uno nuovo Secrets Manager per memorizzare le credenziali del sito Web. Se scegli di creare un nuovo segreto, si apre una finestra AWS Secrets Manager segreta.
Se hai scelto l'autenticazione di base o NTML/Kerberos, inserisci un nome per il segreto, oltre al nome utente e alla password. Il protocollo di autenticazione NTLM include l'hashing delle password e il protocollo di autenticazione Kerberos include la crittografia delle password.
Se hai scelto l'autenticazione SAML o Form, inserisci un nome per il segreto, oltre al nome utente e alla password. XPath Utilizzalo per il campo del nome utente (e XPath per il pulsante del nome utente se usi SAML). Utilizzalo XPaths per il campo e il pulsante della password e l'URL della pagina di accesso. Puoi trovare il XPaths (XML Path Language) degli elementi utilizzando gli strumenti di sviluppo del tuo browser web. XPaths di solito seguono questo formato:
//tagname[@Attribute='Value']
.
-
-
(Facoltativo) Proxy Web: immettere il nome host e il numero di porta del server proxy che si desidera utilizzare per connettersi ai siti Web interni. Ad esempio, il nome host di https://a.example.com/page1.htmlè»a.example.com"e il numero di porta è 443, la porta standard per HTTPS. Se sono necessarie le credenziali del proxy Web per connettersi all'host di un sito Web, è possibile crearne una AWS Secrets Manager che memorizzi le credenziali.
-
Virtual Private Cloud (VPC): puoi scegliere di utilizzare un VPC. In tal caso, è necessario aggiungere sottoreti e gruppi di sicurezza VPC.
-
IAM ruolo: scegli un IAM ruolo esistente o creane uno nuovo IAM per accedere alle credenziali del repository e indicizzare il contenuto.
Nota
IAM i ruoli utilizzati per gli indici non possono essere utilizzati per le fonti di dati. Se non sei sicuro che un ruolo esistente venga utilizzato per un indice o una FAQ, scegli Crea un nuovo ruolo per evitare errori.
-
Scegli Next (Successivo).
-
-
Nella pagina Configura le impostazioni di sincronizzazione, inserisci le seguenti informazioni:
-
Ambito di sincronizzazione: imposta i limiti per la scansione delle pagine Web, compresi i domini, le dimensioni dei file e i collegamenti, e URLs filtra utilizzando modelli regex.
-
(Facoltativo) Intervallo di domini: scegli se eseguire la scansione solo dei domini dei siti Web, dei domini con sottodomini o anche di altri domini a cui le pagine Web rimandano. Per impostazione predefinita, esegue la scansione Amazon Kendra solo dei domini dei siti Web da sottoporre a scansione.
-
(Facoltativo) Configurazione aggiuntiva: imposta le seguenti impostazioni:
-
Profondità di scansione: la «profondità» o il numero di livelli dal livello iniziale alla scansione. Ad esempio, la pagina URL iniziale ha la profondità 1 e tutti i collegamenti ipertestuali di questa pagina che sono anch'essi sottoposti a scansione hanno la profondità 2.
-
Dimensione massima del file: la dimensione massima in MB di una pagina Web o di un allegato da sottoporre a scansione.
-
Numero massimo di link per pagina: il numero massimo di collegamenti URLs su una singola pagina Web da sottoporre a scansione.
-
Limitazione massima della velocità di scansione: il numero massimo di scansioni per host del sito Web al minuto. URLs
-
File: consente di eseguire la scansione dei file a cui si collegano le pagine Web.
-
Scansione e indicizzazione URLs: aggiungi modelli di espressioni regolari per includere o escludere la scansione di determinati collegamenti ipertestuali e l'indicizzazione di eventuali collegamenti URLs ipertestuali su queste pagine Web con URL.
-
-
-
Modalità di sincronizzazione: scegli come aggiornare l'indice quando il contenuto dell'origine dati cambia. Quando sincronizzi l'origine dati con Amazon Kendra per la prima volta, tutto il contenuto viene sottoposto a scansione e indicizzato per impostazione predefinita. Se la sincronizzazione iniziale non è riuscita, devi eseguire una sincronizzazione completa dei dati, anche se non scegli la sincronizzazione completa come opzione della modalità di sincronizzazione.
-
Sincronizzazione completa: indicizza di nuovo tutti i contenuti, sostituendo i contenuti esistenti ogni volta che l'origine dati si sincronizza con l'indice.
-
Sincronizzazione nuova, modificata ed eliminata: indicizza solo i contenuti nuovi, modificati ed eliminati ogni volta che l'origine dati si sincronizza con l'indice. Amazon Kendra può utilizzare il meccanismo dell'origine dati per tenere traccia delle modifiche ai contenuti e indicizzare i contenuti modificati dall'ultima sincronizzazione.
-
-
Pianificazione dell'esecuzione della sincronizzazione: per Frequenza, scegli la frequenza di sincronizzazione con la tua fonte di dati. Amazon Kendra
-
Scegli Next (Successivo).
-
-
Nella pagina Imposta mappature dei campi, inserisci le seguenti informazioni:
-
Seleziona uno dei campi predefiniti Amazon Kendra generati delle pagine Web e dei file che desideri mappare all'indice.
-
Scegli Next (Successivo).
-
-
Nella pagina Rivedi e crea, verifica che le informazioni inserite siano corrette, quindi seleziona Aggiungi origine dati. Puoi anche scegliere di modificare le tue informazioni da questa pagina. L'origine dati verrà visualizzata nella pagina Origini dati dopo che l'origine dati sarà stata aggiunta correttamente.