Integração com o Web Crawler - Amazon Quick

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Integração com o Web Crawler

Com a integração do Web Crawler no Amazon Quick, você pode criar bases de conhecimento a partir do conteúdo do site rastreando e indexando páginas da web. Essa integração oferece suporte a recursos de ingestão de dados com diferentes opções de autenticação.

Capacidades do Web Crawler

Os usuários do Web Crawler podem fazer perguntas sobre o conteúdo armazenado em sites e páginas da web. Por exemplo, os usuários podem pesquisar sites de documentação, bases de conhecimento ou informações específicas em várias páginas da Web.

A integração ajuda os usuários a acessar e entender o conteúdo da web, independentemente da localização ou do tipo. Ele fornece detalhes contextuais, como datas de publicação, histórico de modificações e propriedade da página, para uma descoberta mais eficiente das informações.

nota

A integração do Web Crawler suporta somente a ingestão de dados. Ele não fornece recursos de ação para gerenciar sites ou serviços da web.

Pré-requisitos

Antes de configurar a integração do Web Crawler, verifique se você tem o seguinte:

  • Site URLs para rastrear e indexar.

  • Uma assinatura do Amazon Quick Enterprise.

  • Um site que não está protegido por um firewall e não requer plug-ins de navegador especiais para se conectar.

Prepare o acesso e a autenticação do site

Antes de configurar a integração no Amazon Quick, prepare suas credenciais de acesso ao site. A integração do Web Crawler suporta diferentes métodos de autenticação:

Sem autenticação

Use para rastrear sites que não exigem autenticação.

Autenticação básica

Autenticação básica HTTP padrão para sites seguros. Quando você visita um site protegido, seu navegador exibe uma caixa de diálogo que solicita suas credenciais.

Credenciais necessárias:

  • URL da página de login - A URL da página de login

  • Nome de usuário - Nome de usuário de autenticação básica

  • Senha - Senha de autenticação básica

Autenticação de formulários

Para sites que usam páginas de login baseadas em formulários HTML. Você especifica XPath expressões para identificar os campos do formulário na página de login.

XPath (XML Path Language) é uma linguagem de consulta para navegar por elementos em um documento HTML ou XML. Para encontrar um elemento XPath para uma página da Web, clique com o botão direito do mouse no elemento em seu navegador e escolha Inspecionar. Nas ferramentas do desenvolvedor, clique com o botão direito do mouse no código HTML destacado, escolha Copiar e escolha Copiar XPath.

Informações necessárias:

  • URL da página de login - URL do formulário de login (por exemplo,https://example.com/login)

  • Nome de usuário - Nome de usuário de login

  • Senha - Senha de login

  • Campo de nome de usuário XPath - XPath para o campo de entrada do nome de usuário (por exemplo,//input[@id='username'])

  • Botão de nome de usuário XPath (opcional) - XPath para o campo do botão de nome de usuário (por exemplo,//input[@id='username_button'])

  • Campo de senha XPath - XPath para o campo de entrada de senha (por exemplo,//input[@id='password'])

  • Botão de senha XPath - XPath para botão de senha (por exemplo,//button[@type='password'])

Autenticação SAML

Para sites que usam autenticação de login único (SSO) baseada em SAML.

A autenticação SAML (Security Assertion Markup Language) é um padrão de identidade federada que permite o SSO. Os usuários se autenticam por meio de um provedor de identidade centralizado (como Microsoft Azure AD ou Okta) em vez de inserir credenciais diretamente em cada aplicativo. O provedor de identidade devolve um token seguro ao aplicativo para conceder acesso.

Informações necessárias:

  • URL da página de login - URL da página de login do SAML

  • Nome de usuário - nome de usuário SAML

  • Senha - senha SAML

  • Campo de nome de usuário XPath - XPath para o campo de entrada do nome de usuário (por exemplo,//input[@id='username'])

  • Botão de nome de usuário XPath (opcional) - XPath para o campo do botão de nome de usuário (por exemplo,//input[@id='username_button'])

  • Campo de senha XPath - XPath para o campo de entrada de senha (por exemplo,//input[@id='password'])

  • Botão de senha XPath - XPath para botão de senha (por exemplo,//button[@type='password'])

XPath exemplos de configuração

Use esses XPath exemplos para configurar o formulário e a autenticação SAML:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Configurar a integração do Web Crawler

Depois de preparar seus requisitos de acesso ao site, crie a integração do Web Crawler no Amazon Quick.

  1. No console do Amazon Quick, escolha Integrações.

  2. Escolha Web Crawler nas opções de integração e clique no botão Adicionar (mais o botão “+”).

  3. Escolha Acessar dados do Web Crawler. A integração do Web Crawler oferece suporte somente ao acesso aos dados - a execução da ação não está disponível para rastreamento na Web.

  4. Configure os detalhes da integração e o método de autenticação e, em seguida, crie bases de conhecimento conforme necessário.

    1. Escolha o tipo de autenticação para sua integração com o rastreador da web.

    2. Insira os detalhes necessários com base no método de autenticação escolhido.

    3. (Opcional) Escolha uma conexão VPC para rastrear sites hospedados em sua rede privada. A conexão VPC deve ser configurada nas configurações administrativas antes que você possa escolhê-la aqui. Para obter mais informações, consulte Configurando uma VPC para usar com o Amazon Quick.

      nota

      Você não pode alterar a conexão VPC após a criação da integração. Para usar uma conexão VPC diferente, crie uma nova integração.

    4. Escolha Criar e continuar.

    5. Insira o nome e a descrição da sua base de conhecimento.

    6. Adicione o conteúdo URLs que você deseja rastrear.

    7. Escolha Criar.

Depois de escolher Criar, a sincronização de dados é iniciada automaticamente.

Configurar o rastreamento

Você pode configurar quais sites e páginas rastrear e como filtrar o conteúdo.

Configuração URLs e fontes de conteúdo

Configure quais sites e páginas rastrear:

Direto URLs

Especifique URLs a pessoa a ser rastreada:

https://example.com/docs https://example.com/blog https://example.com/support

Limite: máximo de 10 URLs por conjunto de dados

Filtros de conteúdo e configurações de rastreamento

Configurações do escopo de rastreamento

Para visualizar essas configurações, você deve primeiro configurar uma base de conhecimento e depois examinar a opção de configurações avançadas.

Profundidade de rastreamento
  • Intervalo: 0-10 (padrão: 1)

  • 0 = rastreamento especificado somente URLs

  • 1 = incluir páginas vinculadas com um nível de profundidade

  • Valores mais altos seguem links mais profundos no site

Máximo de links por página
  • Padrão: 1000

  • Máximo: 1.000

  • Controla quantos links seguir em cada página

Tempo de Wait (Espera)
  • Padrão: 1

  • O tempo (em segundos) que o rastreador da Web espera por cada página após a página atingir o estado pronto. Aumente esse valor para páginas com JavaScript conteúdo dinâmico que é carregado após o modelo principal.

Gerencie bases de conhecimento

Depois de configurar sua integração com o Web Crawler, você pode criar e gerenciar bases de conhecimento a partir do conteúdo do seu site rastreado.

Edite as bases de conhecimento existentes

Você pode modificar suas bases de conhecimento existentes do Web Crawler:

  1. No console do Amazon Quick, escolha Bases de conhecimento.

  2. Escolha sua base de conhecimento do Web Crawler na lista.

  3. Escolha o ícone de três pontos em Ações e escolha Editar base de conhecimento.

  4. Atualize suas configurações conforme necessário e escolha Salvar.

Anexos e rastreamento de arquivos

Controle se o sistema processa arquivos e anexos vinculados a páginas da web:

  • Ativar rastreamento de anexos de arquivos — Escolha essa opção para rastrear e indexar arquivos e anexos encontrados em páginas da Web PDFs, como documentos e arquivos de mídia.

Comportamento de rastreamento e configuração de sincronização

Sua integração com o Web Crawler segue estas práticas de rastreamento:

  • Modelo de sincronização incremental: a primeira sincronização executa um rastreamento completo. As sincronizações subsequentes capturam somente as alterações.

  • Nova tentativa automática: lógica de repetição integrada para solicitações com falha.

  • Tratamento de duplicatas: detecção e desduplicação automáticas de. URLs

  • Identificação do rastreador: <UUID>se identifica com a string do agente de usuário "aws-quick-on-behalf-of-" nos cabeçalhos da solicitação.

Descoberta do mapa do site

O Web Crawler verifica automaticamente os mapas do site anexando caminhos comuns do mapa do site à sua semente. URLs Você não precisa fornecer o mapa do site separadamente URLs . Os seguintes caminhos são verificados:

sitemap.xml sitemap_index.xml sitemap/sitemap.xml sitemap/sitemap_index.xml sitemaps/sitemap.xml sitemap/index.xml

Por exemplo, se sua URL inicial forhttps://example.com/docs, o rastreador verificará se há https://example.com/docs/sitemap.xmlhttps://example.com/docs/sitemap_index.xml, e assim por diante.

nota

O Web Crawler não segue referências recursivas de índice de mapas do site. Somente os URLs listados diretamente em um mapa do site descoberto são usados. As diretivas de sitemap em robots.txt não são usadas para descoberta de sitemaps.

Conformidade com Robots.txt

O Web Crawler respeita o protocolo robots.txt e honra o agente de usuário e as diretivas. allow/disallow Isso permite que você controle como o rastreador acessa seu site.

Como funciona a verificação de robots.txt
  • Verificação no nível do host: o Web Crawler lê arquivos robots.txt no nível do host (por exemplo, example.com/robots.txt)

  • Suporte a vários hosts: para domínios com vários hosts, o Web Crawler respeita as regras de robôs para cada host separadamente

  • Comportamento alternativo: se o Web Crawler não conseguir buscar o robots.txt devido a bloqueios, erros de análise ou tempos limite, ele se comportará como se o robots.txt não existisse. Nesse caso, o rastreador continua rastreando o site.

Campos robots.txt compatíveis

O Web Crawler reconhece esses campos do robots.txt (os nomes dos campos não diferenciam maiúsculas de minúsculas, os valores diferenciam maiúsculas de minúsculas):

user-agent

Identifica a qual rastreador as regras se aplicam.

allow

Um caminho de URL que pode ser rastreado.

disallow

Um caminho de URL que pode não ser rastreado.

crawl-delay

O tempo (em segundos) de espera entre as solicitações ao seu site.

Suporte para metatags

O Web Crawler suporta metatags de robôs em nível de página que você pode usar para controlar como seus dados são usados. Você pode especificar as configurações no nível da página incluindo uma metatag em páginas HTML ou em um cabeçalho HTTP.

Metatags suportadas
noindex

Não indexe a página. Se você não especificar essa regra, a página poderá ser indexada e qualificada para aparecer nas experiências.

nofollow

Não siga os links desta página. Se você não especificar essa regra, o Web Crawler poderá usar os links na página para descobrir essas páginas vinculadas.

Você pode combinar vários valores usando uma vírgula (por exemplo, “noindex, nofollow”).

nota

Para detectar metatags, o Web Crawler deve acessar sua página. Não bloqueie sua página com robots.txt, pois isso impede que a página seja rastreada novamente.

Solução de problemas

Use esta seção para resolver problemas comuns com a integração do Web Crawler.

Falhas de autenticação

Sintomas:

  • Mensagens de erro “Não foi possível autenticar”

  • 401/403 respostas HTTP

  • Loops de redirecionamento da página de login

  • Erros de tempo limite da sessão

Etapas de resolução:

  1. Verifique se o site pode ser acessado a partir da AWS região em que a instância Amazon Quick está configurada.

  2. Verifique se suas credenciais estão corretas e não expiraram.

  3. Verifique a disponibilidade e a acessibilidade do endpoint de autenticação.

  4. Valide XPath as configurações testando-as nas ferramentas do desenvolvedor do navegador.

  5. Analise os registros de rede do navegador para entender o fluxo de autenticação.

  6. Verifique se o URL da página de login está correto e acessível.

  7. Teste a autenticação manualmente usando as mesmas credenciais.

Problemas de acesso e conectividade

Sintomas:

  • Tempos limite de conexão e erros de rede

  • Erros de rede inacessíveis

  • Falhas na resolução de DNS

Etapas de resolução:

  1. Verifique a conectividade da rede com os sites de destino.

  2. Valide a acessibilidade do site:

    • Verifique a resolução de DNS dos domínios de destino.

    • Verifique a SSL/TLS configuração e os certificados.

    • Teste o acesso de redes diferentes, se possível.

Resolução do DNS

O Web Crawler usa o DNS para resolver nomes de host de sites (por exemplo,www.example.com) em endereços IP. Por padrão, ele usa a resolução DNS pública.

Ao rastrear sites dentro de uma VPC, talvez seja necessário configurar um servidor DNS privado para que o rastreador possa resolver nomes de host para sites internos. Escolha uma das seguintes opções com base na sua configuração de VPC:

  1. Use o servidor DNS fornecido pela VPC — Se sua VPC tiver nomes de host DNS e resolução de DNS ativados, você poderá usar o resolvedor de DNS VPC padrão (normalmente 10.0.0.2 ou, mais geralmente, a base CIDR da VPC+2). Para obter mais informações, consulte VPC.

  2. Use um servidor DNS personalizado — Se sua VPC usa um resolvedor de DNS personalizado, forneça o endereço IP do servidor DNS interno da sua organização. Trabalhe com o administrador da rede para obter esse endereço.

Se você não configurar um servidor DNS, o rastreador resolverá somente nomes de host registrados publicamente.

JavaScript-navegação dependente

Sintomas:

  • Somente o URL inicial é indexado, nenhuma página adicional é descoberta

  • O rastreamento é concluído com êxito, mas retorna somente um documento

Etapas de resolução:

  1. O Web Crawler executa JavaScript e renderiza o conteúdo da página, mas não simula interações do usuário, como cliques, rolagens ou ações de passar o mouse. Se seu site carrega links de navegação por meio da interação do usuário (por exemplo, manipuladores de cliques, rolagem infinita ou menus dinâmicos), o rastreador não consegue descobrir esses links.

  2. Inspecione sua página nas ferramentas do desenvolvedor do navegador para verificar se os links de navegação usam <a href="..."> elementos padrão. Se, em vez disso, os links forem conectados por meio de manipuladores de JavaScript eventos, o rastreador não os seguirá.

  3. Se seu site fornece um mapa do site, o Web Crawler verifica automaticamente os caminhos comuns do mapa do site em sua semente. URLs Certifique-se de que seu mapa do site esteja disponível em um local padrão (por exemplo/sitemap.xml) para que o rastreador possa descobrir mais URLs sem depender da extração de links na página.

  4. Como alternativa, forneça toda a página de destino URLs diretamente como semente URLs.

  5. Se o conteúdo puder ser exportado como HTML, PDF ou arquivos de texto, considere usar o conector Amazon S3 como fonte de dados.

Problemas de rastreamento e conteúdo

Sintomas:

  • Conteúdo ausente ou incompleto

  • Rastreamentos incompletos ou rescisão antecipada

  • Erros de limitação de taxa (429 respostas)

  • O conteúdo não está sendo indexado corretamente

Etapas de resolução:

  1. Analise as restrições do robots.txt:

    • Verifique se há restrições de rastreamento no arquivo robots.txt.

    • Verifique se o rastreador tem permissão para acessar os caminhos de destino.

    • Certifique-se de que a conformidade com o robots.txt não esteja bloqueando o conteúdo.

  2. Verifique a limitação e a limitação da taxa:

    • Monitore os cabeçalhos de resposta para obter informações sobre o limite de taxa.

    • Implemente atrasos de rastreamento apropriados.

  3. Verifique os padrões e filtros de URL:

    • Teste os padrões de regex para verificar a precisão.

    • Verifique a formatação e a estrutura do URL.

    • Valide a lógica do include/exclude padrão.

  4. Analise as restrições de conteúdo:

    • Verifique se há meta tags noindex nas páginas.

    • Verifique o suporte ao tipo de conteúdo.

    • Certifique-se de que o tamanho do conteúdo esteja dentro dos limites.

  5. Atualize o tempo de espera para que o conteúdo seja carregado na página antes que o rastreador comece a rastrear.

Limitações conhecidas

A integração do Web Crawler tem as seguintes limitações:

  • Limites de URL: máximo de 10 sementes URLs por conjunto de dados. Você não pode fornecer o mapa do site URLs no campo URL inicial.

  • Profundidade de rastreamento: profundidade máxima de rastreamento de 10 níveis

  • Requisitos de segurança: HTTPS necessário para configurações de proxy da web

As seguintes limitações se aplicam ao usar o Web Crawler com uma conexão VPC:

  • Sem suporte para HTTP/3 (QUIC): HTTP/3 não é suportado. A maioria dos sites retornará ao HTTP/2 automaticamente, mas os sites configurados somente para HTTP/3 não estarão acessíveis.

  • É necessário DNS sobre TCP: a resolução de DNS deve usar TCP. Verifique se seu servidor DNS oferece suporte a DNS sobre TCP antes de configurar o rastreamento de VPC.

  • São necessários certificados SSL publicamente confiáveis: os sites internos devem usar um certificado de uma autoridade de certificação conhecida (por exemplo, Let's Encrypt ou DigiCert). Os sites que usam certificados CA autoassinados ou privados não conseguirão se conectar.

  • IPv4 somente: somente IPv4 endereços são suportados. Sites acessíveis exclusivamente IPv6 não podem ser rastreados.