Recursos compatíveis Pré-requisitos Instruções de conexão

Amazon Kendra Conector Web Crawler v2.0

Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.

Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.

Amazon Kendra O Web Crawler v2.0 usa o pacote Selenium web crawler e um driver Chromium. Amazon Kendra atualiza automaticamente a versão do Selenium e do driver Chromium usando a Integração Contínua (CI).

Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Amazon Kendra Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para indexar. Para saber como impedir que o Amazon Kendra Web Crawler indexe seu (s) site (s), consulte. Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra . Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.

Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados

nota

O conector Web Crawler v2.0 não suporta o rastreamento de listas de sites da Web a partir de buckets criptografados. AWS KMS Amazon S3 Ele suporta somente criptografia do lado do servidor com chaves gerenciadas Amazon S3 .

Importante

A criação do conector Web Crawler v2.0 não é suportada pelo. AWS CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. AWS CloudFormation

Recursos compatíveis

Mapeamentos de campos
Filtros de inclusão/exclusão
Sincronizações de conteúdo completas e incrementais
Proxy da Web
Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites
Nuvem privada virtual (VPC)

Pré-requisitos

Antes de usar Amazon Kendra para indexar seus sites, verifique os detalhes de seus sites e AWS contas.

Para os sites, verifique se você tem:

Copiou a semente ou o mapa do site URLs dos sites que você deseja indexar. Você pode armazená-los URLs em um arquivo de texto e enviá-los para um Amazon S3 bucket. Cada URL no arquivo de texto deve ser formatado em uma linha separada. Se você quiser armazenar seus sitemaps em um Amazon S3 bucket, certifique-se de ter copiado o XML do sitemap e salvado em um arquivo XML. Você também pode agrupar vários arquivos XML de mapa do site em um arquivo ZIP.

nota
(Local/servidor) Amazon Kendra verifica se as informações do endpoint incluídas são as mesmas especificadas nos AWS Secrets Manager detalhes de configuração da fonte de dados. Isso ajuda a proteger contra o problema de assistência confusa, que é um problema de segurança em que um usuário não tem permissão para realizar uma ação, mas usa o Amazon Kendra como proxy para acessar a senha configurada e realizar a ação. Se você alterar posteriormente as informações do endpoint, crie uma nova senha para sincronizar essas informações.
Para sites que exigem autenticação básica, NTLM ou Kerberos:
- Anote suas credenciais de autenticação do site, que incluem um nome de usuário e senha.
  
  nota
  Amazon Kendra O Web Crawler v2.0 suporta o protocolo de autenticação NTLM, que inclui hash de senha, e o protocolo de autenticação Kerberos, que inclui criptografia de senha.
Para sites que exigem autenticação por SAML ou formulário de login:
- Anote suas credenciais de autenticação do site, que incluem um nome de usuário e senha.
- Copiou o XPaths (XML Path Language) do campo do nome do usuário (e o botão do nome do usuário se estiver usando SAML), do campo e do botão da senha e copiou o URL da página de login. Você pode encontrar os XPaths elementos usando as ferramentas de desenvolvedor do seu navegador. XPaths geralmente seguem este formato://tagname[@Attribute='Value'].
  
  nota
  Amazon Kendra O Web Crawler v2.0 usa um navegador Chrome sem cabeçalho e as informações do formulário para autenticar e autorizar o acesso com um URL protegido 2.0. OAuth
Opcional: copiou o nome do host e o número da porta se quiser usar um servidor do proxy da web para se conectar aos sites internos que você deseja rastrear. O proxy da web deve estar voltado para o público. Amazon Kendra suporta a conexão com servidores proxy da web que são apoiados pela autenticação básica ou você pode se conectar sem autenticação.
Opcional: copiou o ID da sub-rede da nuvem privada virtual (VPC) se você quiser usar uma VPC para se conectar aos sites internos que deseja rastrear. Para obter mais informações, consulte Configurando um Amazon VPC.
Verificou se cada documento de página da Web que você deseja indexar é único e em outras fontes de dados que você planeja usar para o mesmo índice. Cada fonte de dados que você deseja usar para um índice não deve conter o mesmo documento em todas as fontes de dados. IDs Os documentos são globais para um índice e devem ser exclusivos por índice.

Em sua AWS conta, verifique se você tem:

Criou um Amazon Kendra índice e, se estiver usando a API, anotei o ID do índice.
Criou uma IAM função para sua fonte de dados e, se estiver usando a API, anotei o nome de recurso da Amazon da IAM função.

nota
Se você alterar o tipo de autenticação e as credenciais, deverá atualizar sua IAM função para acessar a ID AWS Secrets Manager secreta correta.
Para sites que exigem autenticação, ou se estiverem usando um proxy da web com autenticação, armazenaram suas credenciais de autenticação em um AWS Secrets Manager segredo e, se estiverem usando a API, anotaram o ARN do segredo.

nota
É recomendável atualizar ou alternar regularmente suas credenciais e senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).

Se você não tiver uma IAM função ou segredo existente, poderá usar o console para criar uma nova IAM função e um novo Secrets Manager segredo ao conectar sua fonte de web crawler dados Amazon Kendra a. Se você estiver usando a API, deverá fornecer o ARN de uma IAM função e Secrets Manager segredo existentes e um ID de índice.

Instruções de conexão

Para se conectar Amazon Kendra à sua fonte de web crawler dados, você deve fornecer os detalhes necessários da sua fonte de web crawler dados para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou web crawler para Amazon Kendra verPré-requisitos.

Console

Para se conectar Amazon Kendra a web crawler

Faça login no AWS Management Console e abra o Amazon Kendra console.
No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.

nota
Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.
Na página Introdução, escolha Adicionar fonte de dados.
Na página Adicionar fonte de dados, escolha conector do web crawler e, em seguida, escolha Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o conector do web crawler com a tag “V2.0".
Na página Especar detalhes da fonte de dados, insira as seguintes informações:
1. Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.
2. (Opcional) Descrição: insira uma descrição opcional para a fonte de dados.
3. Em Idioma padrão — Escolha um idioma para filtrar seus documentos para o índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.
4. Em Tags, em Adicionar nova tag — Inclua tags opcionais para pesquisar e filtrar seus recursos ou monitorar seus AWS custos.
5. Escolha Próximo.
Na página Definir seção e segurança, insira as informações a seguir:
1. Fonte — Escolha Origem URLs, Sitemaps de origem, Arquivo de origem, URLsArquivo de sitemaps de origem. Se você optar por usar um arquivo de texto que inclua uma lista de até 100 sementes URLs, especifique o caminho para o Amazon S3 bucket em que seu arquivo está armazenado. Se você optar por usar um arquivo XML de mapa do site, especifique o caminho para o bucket do Amazon S3 em que o arquivo está armazenado. Você também pode agrupar vários arquivos XML de mapa do site em um arquivo ZIP. Caso contrário, você pode inserir manualmente até 10 sementes ou pontos URLs de partida e até três mapas do site URLs.
  
  nota
  Se você quiser rastrear um sitemap, verifique se o URL base ou raiz é o mesmo URLs listado na página do seu sitemap. Por exemplo, se o URL do seu sitemap for https://example.com/sitemap-page.html, o URLs listado nessa página do sitemap também deverá usar o URL base "”. https://example.com/
  
  Se os sites precisarem de autenticação para acessar os sites, você poderá escolher a autenticação básica, NTLM/Kerberos, SAML ou de formulário. Caso contrário, escolha a opção sem autenticação.
  
  nota
  Se você quiser editar posteriormente sua fonte de dados para alterar sua semente URLs com autenticação em sitemaps, você deve criar uma nova fonte de dados. Amazon Kendra configura a fonte de dados usando as informações do URLs endpoint inicial no Secrets Manager segredo para autenticação e, portanto, não pode reconfigurar a fonte de dados ao mudar para sitemaps.
  1. AWS Secrets Manager segredo — Se seus sites precisarem da mesma autenticação para acessar os sites, escolha um segredo existente ou crie um novo Secrets Manager segredo para armazenar as credenciais do seu site. Se você optar por criar um novo segredo, uma janela AWS Secrets Manager secreta será aberta.
    
    Se escolher a Autenticação básica ou NTML/Kerberos, insira um nome para o segredo o nome de usuário e a senha. O protocolo de autenticação NTLM inclui hash de senha e o protocolo de autenticação Kerberos inclui criptografia de senha.
    
    Se escolher a Autenticação Formulário ou SAML, insira um nome para o segredo o nome de usuário e a senha. Use XPath para o campo de nome de usuário (e XPath para o botão de nome de usuário se estiver usando SAML). Use XPaths para o campo e botão de senha e URL da página de login. Você pode encontrar os elementos XPaths (XML Path Language) usando as ferramentas de desenvolvedor do seu navegador da web. XPaths geralmente seguem este formato://tagname[@Attribute='Value'].
2. (Opcional) Proxy da Web: insira o nome do host e o número da porta do servidor proxy que deseja usar para se conectar aos sites internos. Por exemplo, o nome do host https://a.example.com/page1.html é "a.example.com" e o número da porta é 443, a porta padrão para HTTPS. Se forem necessárias credenciais de proxy da web para se conectar a um host de site, você poderá criar uma AWS Secrets Manager que armazene as credenciais.
3. Nuvem privada virtual (VPC): você pode escolher usar uma VPC. Nesse caso, você deve adicionar sub-redes e grupos de segurança da VPC.
4. IAM função — Escolha uma IAM função existente ou crie uma nova IAM função para acessar as credenciais do repositório e indexar o conteúdo.
  
  nota
  IAM as funções usadas para índices não podem ser usadas para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ou perguntas frequentes, escolha Criar uma nova função para evitar erros.
5. Escolha Próximo.
Na página Configurar configurações de sincronização, insira as seguintes informações:
1. Escopo de sincronização — defina limites para rastrear páginas da Web, incluindo seus domínios, tamanhos de arquivo e links, e filtre URLs usando padrões regex.
  1. (Opcional) Intervalo de domínios de rastreamento: escolha se deseja rastrear somente domínios de sites, domínios com subdomínios ou também rastrear outros domínios aos quais as páginas da Web estão vinculadas. Por padrão, rastreia Amazon Kendra apenas os domínios dos sites que você deseja rastrear.
  2. (Opcional) Configurações adicionais: defina as seguintes configurações opcionais:
    - Profundidade do crawling: a “profundidade” ou número de níveis do nível semente para crawling. Por exemplo, a página de URL semente tem profundidade 1 e todos os hiperlinks nessa página que também são rastreados têm profundidade 2.
    - Tamanho máximo do arquivo: o tamanho máximo em MB da página da Web ou do anexo a ser rastreado.
    - Máximo de links por página — O número máximo de links URLs em uma única página da Web para rastrear.
    - Limitação máxima da velocidade de rastreamento — O número máximo de sites URLs rastreados por host de site por minuto.
    - Arquivos: escolha para rastrear arquivos aos quais as páginas da web estão vinculadas.
    - Rastreamento e indexação URLs — adicione padrões de expressão regular para incluir ou excluir o rastreamento de determinados URLs hiperlinks e a indexação de quaisquer hiperlinks nessas páginas da Web com URL.
2. Modo de sincronização: escolha como você deseja atualizar o índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização.
  - Sincronização completa: indexe todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados for sincronizada com seu índice.
  - Sincronização nova, modificada e excluída: indexe somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
3. Cronograma de execução da sincronização: em Frequência, escolha com que frequência o Amazon Kendra será sincronizado com a fonte de dados.
4. Escolha Próximo.
Na página Definir mapeamentos de campo, insira as seguintes informações:
1. Selecione entre os campos padrão Amazon Kendra gerados de páginas da Web e arquivos que você deseja mapear para o seu índice.
2. Escolha Próximo.
Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.

API

Para se conectar Amazon Kendra a web crawler

Você deve especificar um JSON do esquema da fonte de dados usando a API TemplateConfiguration. Você deve fornecer as seguintes informações:

Fonte de dados — especifique o tipo de fonte de dados como WEBCRAWLERV2 quando você usa o esquema TemplateConfigurationJSON. Além disso, especifique a fonte de dados como TEMPLATE quando você chama a CreateDataSourceAPI.
URLs—Especifique a semente ou o ponto URLs de partida dos sites ou o mapa do site URLs dos sites que você deseja rastrear. Você pode especificar o caminho para um Amazon S3 bucket que armazena sua lista de sementes URLs. Cada URL no arquivo de texto da semente URLs deve ser formatada em uma linha separada. Você também pode especificar o caminho para um Amazon S3 bucket que armazena os arquivos XML do seu sitemap. Você pode agrupar vários arquivos do mapa do site em um arquivo ZIP e armazená-lo em seu bucket do Amazon S3 .

nota
Se você quiser rastrear um sitemap, verifique se o URL base ou raiz é o mesmo URLs listado na página do seu sitemap. Por exemplo, se o URL do seu sitemap for https://example.com/sitemap-page.html, o URLs listado nessa página do sitemap também deverá usar o URL base "”. https://example.com/
Modo de sincronização — especifique como Amazon Kendra você deve atualizar seu índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização. Escolha uma das seguintes opções:
- FORCED_FULL_CRAWLpara indexar todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados é sincronizada com seu índice.
- FULL_CRAWLpara indexar somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
Autenticação: se os sites exigirem a mesma autenticação, especifique a autenticação BasicAuth, NTLM_Kerberos, SAML ou Form. Se os sites não precisarem de autenticação, especifique NoAuthentication.

Nome do recurso da Amazon (ARN) da senha: se os sites exigirem autenticação básica, NTLM ou Kerberos, você fornecerá uma senha que armazena as credenciais de autenticação de nome de usuário e senha. Forneça o nome do recurso da Amazon (ARN) da senha do AWS Secrets Manager . A senha deve conter uma estrutura JSON com as seguintes chaves:


{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password"
}

Se o site precisar de uma autenticação OAuth2, a senha deverá conter uma estrutura JSON com as seguintes chaves:


{
    "seedUrlsHash": "Hash representation of all seed URLs",                                
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "userNameButtonXpath": "XPath for user name button",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}

Se o site precisar de uma autenticação, a senha deverá conter uma estrutura JSON com as seguintes chaves:


{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}

Você pode encontrar os elementos XPaths (XML Path Language) usando as ferramentas de desenvolvedor do seu navegador da web. XPaths geralmente seguem este formato://tagname[@Attribute='Value'].

Você também pode fornecer credenciais de proxy da web usando uma senha do AWS Secrets Manager .

IAM role — Especifique RoleArn quando você liga CreateDataSource para fornecer uma IAM função com permissões para acessar seu Secrets Manager segredo e chamar o público necessário APIs para o conector do web crawler e. Amazon Kendra Para obter mais informações, consulte Funções do IAM para as fontes de dados do web crawler.

Você também pode adicionar os seguintes recursos opcionais:

Nuvem privada virtual (VPC): especifique a VpcConfiguration quando ao chamar CreateDataSource. Para obter mais informações, consulte Configurando Amazon Kendra para usar um Amazon VPC.
Faixa de domínio: escolha se deseja rastrear somente domínios de sites, domínios com subdomínios ou também rastrear outros domínios aos quais as páginas da Web estão vinculadas. Por padrão, rastreia Amazon Kendra apenas os domínios dos sites que você deseja rastrear.
A “profundidade” ou número de níveis do nível semente para crawling. Por exemplo, a página de URL semente tem profundidade 1 e todos os hiperlinks nessa página nos quais também será realizado crawling têm profundidade 2.
O número máximo de páginas da URLs web a serem rastreadas em uma única página da web.
O tamanho máximo em MB de uma página da Web ou anexo para crawling.
O número máximo de URLs rastreados por host do site por minuto.
O host do proxy da web e o número da porta para se conectar e rastrear sites internos. Por exemplo, o nome do host https://a.example.com/page1.html é "a.example.com" e o número da porta é 443, a porta padrão para HTTPS. Se o proxy da Web exigir credenciais para se conectar ao host de um site, crie um AWS Secrets Manager que armazene as credenciais.
Filtros de inclusão e exclusão — especifique se deseja incluir ou excluir o rastreamento de determinados hiperlinks URLs e a indexação de quaisquer hiperlinks nessas páginas da Web com URL.

nota
A maioria das fontes de dados usa padrões de expressão regular, que são padrões de inclusão ou exclusão chamados de filtros. Se você especificar um filtro de inclusão, somente o conteúdo que corresponda ao filtro de inclusão será indexado. Qualquer documento que não corresponda ao filtro de inclusão não é indexado. Se especificar um filtro de inclusão e exclusão, os documentos que corresponderem ao filtro de exclusão não serão indexados, mesmo que correspondam ao filtro de inclusão.
Mapeamentos de campo — Escolha mapear os campos de páginas da Web e arquivos de páginas da Web para seus Amazon Kendra campos de índice. Para obter mais informações, consulte Mapeamento de campos de fonte de dados.

Para ver uma lista de outras chaves JSON importantes a serem configuradas, consulte o Esquema do modelo do Web Crawler do Amazon Kendra.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Amazon Kendra Conector Web Crawler v1.0

Configurando o robots.txt arquivo para o Amazon Kendra Web Crawler