Amazon Kendra Conector Web Crawler v1.0 - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Amazon Kendra Conector Web Crawler v1.0

Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.

Você só pode rastrear sites públicos e sites que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público.

Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Amazon Kendra Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para indexar. Para saber como impedir que o Amazon Kendra Web Crawler indexe seu (s) site (s), consulte. Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra

nota

Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.

Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados

Atributos compatíveis

  • Proxy da Web

  • Filtros de inclusão/exclusão

Pré-requisitos

Antes de usar Amazon Kendra para indexar seus sites, verifique os detalhes de seus sites e AWS contas.

Para os sites, verifique se você tem:

  • Copiou os URLs semente ou mapa dos sites nos quais você deseja fazer o crawling.

  • Para sites que exigem autenticação básica: anotou o nome de usuário e a senha e copiou o nome do host do site e o número da porta.

  • Opcional: copiou o nome do host do site e o número da porta se quiser usar um proxy da web para se conectar aos sites internos que você deseja rastrear. O proxy da web deve estar voltado para o público. O Amazon Kendra suporta a conexão com servidores proxy da web que são apoiados pela autenticação básica ou você pode se conectar sem autenticação.

  • Verificou se cada documento de página da Web que você deseja indexar é único e em outras fontes de dados que você planeja usar para o mesmo índice. Cada fonte de dados que você deseja usar para um índice não deve conter o mesmo documento em todas as fontes de dados. Os IDs de documentos são globais para um índice e devem ser exclusivos por índice.

Em sua AWS conta, verifique se você tem:

  • Criou um Amazon Kendra índice e, se estiver usando a API, anotei o ID do índice.

  • Criou uma IAM função para sua fonte de dados e, se estiver usando a API, anotei o ARN da IAM função.

    nota

    Se você alterar o tipo de autenticação e as credenciais, deverá atualizar sua IAM função para acessar a ID AWS Secrets Manager secreta correta.

  • Para sites que exigem autenticação, ou se estiverem usando um proxy da web com autenticação, armazenaram suas credenciais de autenticação em um AWS Secrets Manager segredo e, se estiverem usando a API, anotaram o ARN do segredo.

    nota

    Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).

Se você não tiver uma IAM função ou segredo existente, poderá usar o console para criar uma nova IAM função e um novo Secrets Manager segredo ao conectar sua fonte de web crawler dados Amazon Kendra a. Se você estiver usando a API, deverá fornecer o ARN de uma IAM função e Secrets Manager segredo existentes e um ID de índice.

Instruções de conexão

Para se conectar Amazon Kendra à sua fonte de web crawler dados, você deve fornecer os detalhes necessários da sua fonte de web crawler dados para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou web crawler para Amazon Kendra verPré-requisitos.

Console

Para se conectar Amazon Kendra a web crawler

  1. Faça login no AWS Management Console e abra o Amazon Kendra console.

  2. No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.

    nota

    Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.

  3. Na página Introdução, escolha Adicionar fonte de dados.

  4. Na página Adicionar fonte de dados, escolha conector do web crawler e, em seguida, escolha Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o conector do web crawler com a tag “V2.0".

  5. Na página Especar detalhes da fonte de dados, insira as seguintes informações:

    1. Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.

    2. (Opcional) Descrição: insira uma descrição opcional para a fonte de dados.

    3. Em Idioma padrão — Escolha um idioma para filtrar seus documentos para o índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.

    4. Em Tags, em Adicionar nova tag — Inclua tags opcionais para pesquisar e filtrar seus recursos ou monitorar seus AWS custos.

    5. Escolha Próximo.

  6. Na página Definir seção e segurança, insira as informações a seguir:

    1. Em Fonte, escolha entre URLs de origem e mapas de sites de origem, dependendo do caso de uso, e insira os valores de cada um.

      Você pode adicionar até 10 URLs de origem e 3 mapas de sites.

      nota

      Se quiser rastrear um sitemap, verifique se o URL base ou raiz é o mesmo que os URLs listados na página do mapa do site. Por exemplo, se o URL do mapa do site para https://example.com/sitemap-page.html, os URLs listados nessa página do mapa do site também devem usar o URL base "https://example.com/".

    2. (Opcional) Para o proxy da Web, insira as seguintes informações:

      1. Nome do host: o nome do host em que o proxy da web é necessário.

      2. Número da porta: o número da porta usado pelo protocolo de transporte de URL do host. O número da porta deve ser um valor numérico entre 0 e 65535.

      3. Para credenciais de proxy da Web: se a conexão do proxy da Web exigir autenticação, escolha uma senha existente ou crie uma nova senha para armazenar as credenciais de autenticação. Se optar por criar uma nova senha, uma janela secreta do AWS Secrets Manager será aberta.

      4. Insira as seguintes informações em Criar uma janela de senha do AWS Secrets Manager Secrets Manager :

        1. Senha: um nome para sua senha. O prefixo “AmazonKendra-WebCrawler-” é adicionado automaticamente à senha.

        2. Em Nome de usuário e senha, insira essas credenciais básicas de autenticação para seus sites.

        3. Escolha Salvar.

    3. (Opcional) Hosts com autenticação: selecione para adicionar outros hosts com autenticação.

    4. IAM função — Escolha uma IAM função existente ou crie uma nova IAM função para acessar as credenciais do repositório e indexar o conteúdo.

      nota

      IAM as funções usadas para índices não podem ser usadas para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ou perguntas frequentes, escolha Criar uma nova função para evitar erros.

    5. Escolha Próximo.

  7. Na página Configurações de sincronização, insira as seguintes informações:

    1. Intervalo de rastreamento: escolha o tipo de página da Web que você deseja rastrear.

    2. Profundidade do rastreamento — Selecione o número de níveis do URL inicial que Amazon Kendra devem ser rastreados.

    3. As configurações avançadas de rastreamento e a configuração adicional inserem as seguintes informações:

      1. Tamanho máximo do arquivo: o tamanho máximo da página da Web ou do anexo a ser rastreado. Mínimo de 0,000001 MB (1 byte). Máximo de 50 MB.

      2. Máximo de links por página: o número máximo de links rastreados por página. Os links passam pelo crawling por ordem de exibição. Mínimo de 1 link/página. Máximo de 1000 links/página.

      3. Controle de utilização máxima: o número máximo de URLs que o crawling percorre por nome de host por minuto. Mínimo de 1 URL/nome do host/minuto. Máximo de 300 URLs/nome do host/minuto.

      4. Padrões Regex: adicionar padrões de expressão regular para incluir ou excluir determinados URL. Você pode adicionar até 100 padrões.

    4. Em Cronograma de execução da sincronização, em Frequência — Escolha com que frequência Amazon Kendra será sincronizada com sua fonte de dados.

    5. Escolha Próximo.

  8. Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.

API

Para se conectar Amazon Kendra a web crawler

Você deve especificar o seguinte usando a WebCrawlerConfigurationAPI:

  • URLs: especifica os URLs semente, ou de partida, ou os URLs de mapa dos sites nos quais você deseja fazer o crawling usando SeedUrlConfiguration e SiteMapsConfiguration.

    nota

    Se quiser rastrear um sitemap, verifique se o URL base ou raiz é o mesmo que os URLs listados na página do mapa do site. Por exemplo, se o URL do mapa do site para https://example.com/sitemap-page.html, os URLs listados nessa página do mapa do site também devem usar o URL base "https://example.com/".

  • Nome do recurso da Amazon (ARN) da senha: se for necessário usar a autenticação básica do site, forneça o nome do host, o número da porta e uma senha que armazena as credenciais básicas de autenticação do seu nome de usuário e senha. Você fornece o ARN secreto usando a API AuthenticationConfiguration. A senha deve conter uma estrutura JSON com as seguintes chaves:

    { "username": "user name", "password": "password" }

    Você também pode fornecer credenciais de proxy da web usando uma senha do AWS Secrets Manager . Você usa a API ProxyConfiguration para fornecer o nome do host e o número da porta do site e, opcionalmente, a senha que armazena as credenciais de proxy da web.

  • IAM role — Especifique RoleArn quando você liga CreateDataSource para fornecer uma IAM função com permissões para acessar seu Secrets Manager segredo e chamar as APIs públicas necessárias para o conector do web crawler e. Amazon Kendra Para obter mais informações, consulte Funções do IAM para as fontes de dados do web crawler.

Você também pode adicionar os seguintes recursos opcionais:

  • Modo de rastreamento: escolha se deseja rastrear somente nomes de host de sites ou nomes de host com subdomínios ou também rastrear outros domínios aos quais as páginas da Web estão vinculadas.

  • A “profundidade” ou número de níveis do nível semente para crawling. Por exemplo, a página de URL semente tem profundidade 1 e todos os hiperlinks nessa página que também são rastreados têm profundidade 2.

  • O número máximo de URLs em uma página da Web a serem incluídos no crawling.

  • O tamanho máximo (em MB) de uma página da Web para crawling.

  • O número máximo de URLs que o crawling percorre por host de site por minuto.

  • O host do proxy da web e o número da porta para se conectar e rastrear sites internos. Por exemplo, o nome do host https://a.example.com/page1.html é "a.example.com" e o número da porta é 443, a porta padrão para HTTPS. Se o proxy da Web exigir credenciais para se conectar ao host de um site, crie um AWS Secrets Manager que armazene as credenciais.

  • As informações de autenticação para acessar e fazer o crawling de sites que exigem autenticação do usuário.

  • Você pode extrair metatags HTML como campos usando a ferramenta de Enriquecimento de documentos personalizados. Para obter mais informações, consulte Personalização de metadados de documentos durante o processo de ingestão. Para obter um exemplo de extração de metatags HTML, consulte exemplos de CDE.

  • Filtros de inclusão e exclusão: especifique se deseja incluir ou excluir determinados URLs..

    nota

    A maioria das fontes de dados usa padrões de expressão regular, que são padrões de inclusão ou exclusão chamados de filtros. Se você especificar um filtro de inclusão, somente o conteúdo que corresponda ao filtro de inclusão será indexado. Qualquer documento que não corresponda ao filtro de inclusão não é indexado. Se especificar um filtro de inclusão e exclusão, os documentos que corresponderem ao filtro de exclusão não serão indexados, mesmo que correspondam ao filtro de inclusão.

Saiba mais

Para saber mais sobre a integração Amazon Kendra com sua fonte web crawler de dados, consulte: