Integração com o Web Crawler - Amazon Quick Suite

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Integração com o Web Crawler

Com a integração do Web Crawler no Amazon Quick Suite, você pode criar bases de conhecimento a partir do conteúdo do site rastreando e indexando páginas da web. Essa integração oferece suporte a recursos de ingestão de dados com diferentes opções de autenticação com base no seu nível de usuário.

O que é possível fazer

Os usuários do Web Crawler podem fazer perguntas sobre o conteúdo armazenado em sites e páginas da web. Por exemplo, os usuários podem fazer perguntas sobre sites de documentação, bases de conhecimento ou pesquisar informações específicas em várias páginas da web. A integração permite que os usuários acessem e entendam rapidamente as informações do conteúdo da Web, independentemente da localização ou do tipo, ao mesmo tempo em que fornecem detalhes contextuais, como datas de publicação, histórico de modificações e propriedade da página — tudo contribuindo para uma descoberta mais eficiente das informações e uma tomada de decisão mais bem informada.

nota

A integração do Web Crawler suporta somente a ingestão de dados. Ele não fornece recursos de ação para gerenciar sites ou serviços da web.

Antes de começar

Antes de configurar a integração do Web Crawler, verifique se você tem o seguinte:

  • Site URLs para rastrear e indexar.

  • Assinatura Amazon Quick Suite Enterprise

  • O site que você deseja rastrear precisa ser público e não pode estar protegido por um firewall nem exigir plug-ins de navegador especiais para se conectar.

Prepare o acesso e a autenticação do site

Antes de configurar a integração no Amazon Quick Suite, prepare suas credenciais de acesso ao site. A integração do Web Crawler oferece suporte a diferentes métodos de autenticação com base na sua função de usuário:

Sem autenticação

Disponível para todos os usuários. Use para rastrear sites públicos que não exigem autenticação.

Autenticação básica

Autenticação básica HTTP padrão para sites seguros. A Autenticação Básica HTTP é uma maneira simples de proteger os recursos da Web, exigindo um nome de usuário e uma senha. Quando você visita um site protegido usando a Autenticação Básica, seu navegador mostra uma caixa de diálogo pop-up solicitando suas credenciais.

Credenciais necessárias:

  • URL da página de login - A URL da página de login

  • Nome de usuário - Nome de usuário de autenticação básica

  • Senha - Senha de autenticação básica

Autenticação de formulários

Para sites que usam páginas de login baseadas em formulários HTML.

O formulário está configurado para que você especifique. XPath XPath (XML Path Language) é uma linguagem de consulta usada para navegar pelos elementos e atributos em um documento HTML ou XML. Para identificar um XPath elemento de uma página da web, um usuário pode utilizar as ferramentas de desenvolvedor do navegador, normalmente acessadas clicando com o botão direito do mouse no elemento desejado e selecionando “Inspecionar” ou pressionando F12. Depois que o elemento é destacado nas ferramentas do desenvolvedor, o usuário pode clicar com o botão direito do mouse no código HTML correspondente, selecionar “Copiar” e, em seguida, escolher “Copiar XPath” no submenu. Isso gera um caminho exclusivo que identifica a localização exata do elemento na estrutura do documento. O resultado XPath pode ser algo como //input [@id ='username'] ou //button [@type ='submit'], onde as barras duplas (//) indicam que o caminho pode começar em qualquer lugar no documento, e os colchetes contêm atributos que ajudam a identificar o elemento específico.

Informações necessárias:

  • URL da página de login - URL do formulário de login (por exemplo,https://example.com/login)

  • Nome de usuário - Nome de usuário de login

  • Senha - Senha de login

  • Campo de nome de usuário XPath - XPath para o campo de entrada do nome de usuário (por exemplo,//input[@id='username'])

  • Botão de nome de usuário XPath (opcional) - XPath para o campo do botão de nome de usuário (por exemplo,//input[@id='username_button'])

  • Campo de senha XPath - XPath para o campo de entrada de senha (por exemplo,//input[@id='password'])

  • Botão de senha XPath - XPath para botão de senha (por exemplo,//button[@type='password'])

Autenticação SAML

Para sites que usam autenticação de login único baseada em SAML.

A autenticação SAML (Security Assertion Markup Language) é um padrão de identidade federada que permite o login único (SSO), permitindo que os usuários se autentiquem por meio de um provedor de identidade centralizado, em vez de inserir credenciais diretamente em cada aplicativo. Diferentemente da autenticação de formulário tradicional, na qual os usuários digitam seu nome de usuário e senha nos campos da página de login do aplicativo, o SAML redireciona os usuários para o provedor de identidade da organização (como Microsoft Azure AD ou Okta) para autenticar e, em seguida, passa um token seguro de volta ao aplicativo para conceder acesso. Essa abordagem fornece uma experiência de usuário perfeita em vários aplicativos, gerenciamento centralizado de usuários para administradores de TI e segurança aprimorada por meio de recursos como autenticação multifatorial, enquanto a autenticação de formulários exige gerenciamento de credenciais separado para cada aplicativo individual

Informações necessárias:

  • URL da página de login - URL da página de login do SAML

  • Nome de usuário - nome de usuário SAML

  • Senha - senha SAML

  • Campo de nome de usuário XPath - XPath para o campo de entrada do nome de usuário (por exemplo,//input[@id='username'])

  • Botão de nome de usuário XPath (opcional) - XPath para o campo do botão de nome de usuário (por exemplo,//input[@id='username_button'])

  • Campo de senha XPath - XPath para o campo de entrada de senha (por exemplo,//input[@id='password'])

  • Botão de senha XPath - XPath para botão de senha (por exemplo,//button[@type='password'])

XPath exemplos de configuração

Use esses XPath exemplos para configurar o formulário e a autenticação SAML:

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

Configurar a integração do Web Crawler

Depois de preparar seus requisitos de acesso ao site, crie a integração do Web Crawler no Amazon Quick Suite.

  1. No console do Amazon Quick Suite, escolha Integrações.

  2. Escolha Web Crawler nas opções de integração e clique no botão Adicionar (mais o botão “+”).

  3. Escolha Acessar dados do Web Crawler. A integração do Web Crawler oferece suporte somente ao acesso aos dados - a execução da ação não está disponível para rastreamento na Web.

  4. Configure os detalhes da integração e o método de autenticação e, em seguida, crie bases de conhecimento conforme necessário.

    1. Selecione o tipo de autenticação para sua integração com o rastreador da web.

    2. Preencha os detalhes necessários com base no método de autenticação selecionado.

    3. Selecione Criar e continuar.

    4. Preencha o nome e a descrição da sua base de conhecimento.

    5. Adicione o conteúdo URLs que você deseja rastrear.

    6. Escolha Criar.

Depois de clicar em criar, a sincronização de dados é iniciada automaticamente.

Configurar o rastreamento

Você pode configurar quais sites e páginas rastrear e como filtrar o conteúdo.

Configuração URLs e fontes de conteúdo

Configure quais sites e páginas devem ser rastreados:

Direto URLs

Especifique URLs a pessoa a ser rastreada:

https://example.com/docs https://example.com/blog https://example.com/support

Limite: máximo de 10 URLs por conjunto de dados

Filtros de conteúdo e configurações de rastreamento

Configurações do escopo de rastreamento

Para visualizar essas configurações, você deve primeiro configurar uma base de conhecimento e, em seguida, examinar a opção de configurações avançadas.

Profundidade de rastreamento
  • Intervalo: 0-10 (padrão: 1)

  • 0 = rastreamento especificado somente URLs

  • 1 = incluir páginas vinculadas com um nível de profundidade

  • Valores mais altos seguem links mais profundos no site

Máximo de links por página
  • Padrão: 1000

  • Máximo: 1.000

  • Controla quantos links seguir em cada página

Tempo de Wait (Espera)
  • Padrão: 1

  • A quantidade de tempo que o rastreador da Web aguardará por cada página após a página atingir o estado “página pronta”. Isso é útil para páginas com características de carregamento dinâmico de javascript, nas quais a página tem blocos de conteúdo que são carregados após o carregamento do modelo principal. Aumente o tempo de espera se você tiver conteúdo visualmente rico ou preveja tempos de carregamento altos.

Gerencie bases de conhecimento

Depois de configurar sua integração com o Web Crawler, você pode criar e gerenciar bases de conhecimento a partir do conteúdo do seu site rastreado.

Edite as bases de conhecimento existentes

Você pode modificar suas bases de conhecimento existentes do Web Crawler:

  1. No console do Amazon Quick Suite, escolha Bases de conhecimento.

  2. Selecione sua base de conhecimento do Web Crawler na lista.

  3. Escolha o ícone de três pontos em Ações e escolha Editar base de conhecimento.

  4. Atualize suas configurações conforme necessário e escolha Salvar.

Crie bases de conhecimento adicionais

Você pode criar várias bases de conhecimento a partir da mesma integração do Web Crawler:

  1. No console do Amazon Quick Suite, escolha Integrações e, em seguida, selecione a guia Dados.

  2. Escolha sua integração existente com o Web Crawler na lista.

  3. Escolha o ícone de três pontos em Ações e, em seguida, escolha Criar base de conhecimento.

  4. Defina as configurações da sua base de conhecimento e escolha Criar.

Para obter informações detalhadas sobre as opções de configuração da base de conhecimento, consulteConfigurações comuns.

Anexos e rastreamento de arquivos

Controle se o sistema processa arquivos e anexos vinculados a páginas da web:

  • Ativar rastreamento de anexos de arquivos - Selecione essa opção para rastrear e indexar arquivos e anexos encontrados em páginas da Web PDFs, como documentos e arquivos de mídia.

Comportamento de rastreamento e configuração de sincronização

Sua integração com o Web Crawler segue estas práticas de rastreamento:

  • Modelo de sincronização incremental: a primeira sincronização executa o rastreamento completo, as sincronizações subsequentes capturam somente as alterações

  • Nova tentativa automática: lógica de repetição integrada para solicitações com falha

  • Manipulação de duplicatas: detecção e manuseio automáticos de URLs

  • Identificação do rastreador: <UUID>se identifica com a string do agente de usuário "aws-quick-on-behalf-of-" nos cabeçalhos da solicitação

Conformidade com Robots.txt

O Web Crawler respeita o protocolo robots.txt e honra o agente de usuário e as diretivas. allow/disallow Isso permite que você controle como o rastreador acessa seu site.

Como funciona a verificação de robots.txt
  • Verificação no nível do host: o Web Crawler lê arquivos robots.txt no nível do host (por exemplo, example.com/robots.txt)

  • Suporte a vários hosts: para domínios com vários hosts, o Web Crawler respeita as regras de robôs para cada host separadamente

  • Comportamento alternativo: se o Web Crawler não conseguir buscar o robots.txt devido a bloqueios, erros de análise ou tempos limite, ele se comportará como se o robots.txt não existisse e rastreará o site

Campos robots.txt compatíveis

O Web Crawler reconhece esses campos do robots.txt (os nomes dos campos não diferenciam maiúsculas de minúsculas, os valores diferenciam maiúsculas de minúsculas):

user-agent

Identifica a qual rastreador as regras se aplicam

allow

Um caminho de URL que pode ser rastreado

disallow

Um caminho de URL que pode não ser rastreado

sitemap

O URL completo de um sitemap

crawl-delay

Tempo de espera especificado (em segundos) entre as solicitações ao seu site

Suporte para metatags

O Web Crawler suporta metatags de robôs em nível de página que você pode usar para controlar como seus dados são usados. Você pode especificar as configurações no nível da página incluindo uma metatag em páginas HTML ou em um cabeçalho HTTP.

Metatags suportadas
noindex

Não indexe a página. Se você não especificar essa regra, a página poderá ser indexada e qualificada para aparecer em experiências

nofollow

Não siga os links desta página. Se você não especificar essa regra, o Web Crawler poderá usar os links na página para descobrir essas páginas vinculadas

Você pode combinar vários valores usando uma vírgula (por exemplo, “noindex, nofollow”).

nota

Para detectar metatags, o Web Crawler precisa acessar sua página, portanto, não bloqueie sua página com robots.txt, o que impedirá que ela seja rastreada novamente.

Solução de problemas

Use esta seção para resolver problemas comuns com a integração do Web Crawler.

Falhas de autenticação

Sintomas:

  • Mensagens de erro “Não foi possível autenticar”

  • 401/403 respostas HTTP

  • Loops de redirecionamento da página de login

  • Erros de tempo limite da sessão

Etapas de resolução:

  1. Verifique se o site pode ser acessado a partir da AWS região em que a instância do Amazon Quick Suite está configurada

  2. Verifique a precisão das credenciais e garanta que elas não tenham expirado

  3. Verifique a disponibilidade e a acessibilidade do endpoint de autenticação

  4. Valide XPath as configurações testando-as nas ferramentas do desenvolvedor do navegador

  5. Analise os registros de rede do navegador para entender o fluxo de autenticação

  6. Certifique-se de que o URL da página de login esteja correto e acessível

  7. Teste a autenticação manualmente usando as mesmas credenciais

Problemas de acesso e conectividade

Sintomas:

  • Tempos limite de conexão e erros de rede

  • Erros de rede inacessíveis

  • Falhas na resolução de DNS

Etapas de resolução:

  1. Verifique a conectividade de rede com os sites de destino

  2. Valide a acessibilidade do site:

    • Verifique a resolução de DNS para domínios de destino

    • Verifique a SSL/TLS configuração e os certificados

    • Teste o acesso de redes diferentes, se possível

Problemas de rastreamento e conteúdo

Sintomas:

  • Conteúdo ausente ou incompleto

  • Rastreamentos incompletos ou rescisão antecipada

  • Erros de limitação de taxa (429 respostas)

  • O conteúdo não está sendo indexado corretamente

Etapas de resolução:

  1. Analise as restrições do robots.txt:

    • Verifique se há restrições de rastreamento no arquivo robots.txt

    • Verifique se o rastreador tem permissão para acessar os caminhos de destino

    • Certifique-se de que a conformidade com o robots.txt não esteja bloqueando o conteúdo

  2. Verifique a limitação e a limitação da taxa:

    • Monitore os cabeçalhos de resposta para obter informações sobre limite de taxa

    • Implemente atrasos de rastreamento apropriados

  3. Verifique os padrões e filtros de URL:

    • Teste padrões de regex para maior precisão

    • Verifique a formatação e a estrutura do URL

    • Valide a lógica do include/exclude padrão

  4. Analise as restrições de conteúdo:

    • Verifique se há metatags sem índice nas páginas

    • Verifique o suporte ao tipo de conteúdo

    • Garanta que o tamanho do conteúdo esteja dentro dos limites

  5. Atualize o Tempo de espera para um valor apropriado para que o conteúdo seja carregado na página antes que o rastreador tente rastrear

Limitações conhecidas

A integração do Web Crawler tem as seguintes limitações:

  • Limites de URL: máximo de 10 URLs, mapa do site não suportado

  • Profundidade de rastreamento: profundidade máxima de rastreamento de 10 níveis

  • Requisitos de segurança: HTTPS necessário para configurações de proxy da web