As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Integração com o Web Crawler
Com a integração do Web Crawler no Amazon Quick Suite, você pode criar bases de conhecimento a partir do conteúdo do site rastreando e indexando páginas da web. Essa integração oferece suporte a recursos de ingestão de dados com diferentes opções de autenticação com base no seu nível de usuário.
O que é possível fazer
Os usuários do Web Crawler podem fazer perguntas sobre o conteúdo armazenado em sites e páginas da web. Por exemplo, os usuários podem fazer perguntas sobre sites de documentação, bases de conhecimento ou pesquisar informações específicas em várias páginas da web. A integração permite que os usuários acessem e entendam rapidamente as informações do conteúdo da Web, independentemente da localização ou do tipo, ao mesmo tempo em que fornecem detalhes contextuais, como datas de publicação, histórico de modificações e propriedade da página — tudo contribuindo para uma descoberta mais eficiente das informações e uma tomada de decisão mais bem informada.
nota
A integração do Web Crawler suporta somente a ingestão de dados. Ele não fornece recursos de ação para gerenciar sites ou serviços da web.
Antes de começar
Antes de configurar a integração do Web Crawler, verifique se você tem o seguinte:
-
Site URLs para rastrear e indexar.
-
Assinatura Amazon Quick Suite Enterprise
-
O site que você deseja rastrear precisa ser público e não pode estar protegido por um firewall nem exigir plug-ins de navegador especiais para se conectar.
Prepare o acesso e a autenticação do site
Antes de configurar a integração no Amazon Quick Suite, prepare suas credenciais de acesso ao site. A integração do Web Crawler oferece suporte a diferentes métodos de autenticação com base na sua função de usuário:
- Sem autenticação
-
Disponível para todos os usuários. Use para rastrear sites públicos que não exigem autenticação.
- Autenticação básica
-
Autenticação básica HTTP padrão para sites seguros. A Autenticação Básica HTTP é uma maneira simples de proteger os recursos da Web, exigindo um nome de usuário e uma senha. Quando você visita um site protegido usando a Autenticação Básica, seu navegador mostra uma caixa de diálogo pop-up solicitando suas credenciais.
Credenciais necessárias:
-
URL da página de login - A URL da página de login
Nome de usuário - Nome de usuário de autenticação básica
Senha - Senha de autenticação básica
-
- Autenticação de formulários
-
Para sites que usam páginas de login baseadas em formulários HTML.
O formulário está configurado para que você especifique. XPath XPath (XML Path Language) é uma linguagem de consulta usada para navegar pelos elementos e atributos em um documento HTML ou XML. Para identificar um XPath elemento de uma página da web, um usuário pode utilizar as ferramentas de desenvolvedor do navegador, normalmente acessadas clicando com o botão direito do mouse no elemento desejado e selecionando “Inspecionar” ou pressionando F12. Depois que o elemento é destacado nas ferramentas do desenvolvedor, o usuário pode clicar com o botão direito do mouse no código HTML correspondente, selecionar “Copiar” e, em seguida, escolher “Copiar XPath” no submenu. Isso gera um caminho exclusivo que identifica a localização exata do elemento na estrutura do documento. O resultado XPath pode ser algo como //input [@id ='username'] ou //button [@type ='submit'], onde as barras duplas (//) indicam que o caminho pode começar em qualquer lugar no documento, e os colchetes contêm atributos que ajudam a identificar o elemento específico.
Informações necessárias:
URL da página de login - URL do formulário de login (por exemplo,
https://example.com/login)Nome de usuário - Nome de usuário de login
Senha - Senha de login
Campo de nome de usuário XPath - XPath para o campo de entrada do nome de usuário (por exemplo,
//input[@id='username'])-
Botão de nome de usuário XPath (opcional) - XPath para o campo do botão de nome de usuário (por exemplo,
//input[@id='username_button']) Campo de senha XPath - XPath para o campo de entrada de senha (por exemplo,
//input[@id='password'])Botão de senha XPath - XPath para botão de senha (por exemplo,
//button[@type='password'])
- Autenticação SAML
-
Para sites que usam autenticação de login único baseada em SAML.
A autenticação SAML (Security Assertion Markup Language) é um padrão de identidade federada que permite o login único (SSO), permitindo que os usuários se autentiquem por meio de um provedor de identidade centralizado, em vez de inserir credenciais diretamente em cada aplicativo. Diferentemente da autenticação de formulário tradicional, na qual os usuários digitam seu nome de usuário e senha nos campos da página de login do aplicativo, o SAML redireciona os usuários para o provedor de identidade da organização (como Microsoft Azure AD ou Okta) para autenticar e, em seguida, passa um token seguro de volta ao aplicativo para conceder acesso. Essa abordagem fornece uma experiência de usuário perfeita em vários aplicativos, gerenciamento centralizado de usuários para administradores de TI e segurança aprimorada por meio de recursos como autenticação multifatorial, enquanto a autenticação de formulários exige gerenciamento de credenciais separado para cada aplicativo individual
Informações necessárias:
URL da página de login - URL da página de login do SAML
Nome de usuário - nome de usuário SAML
Senha - senha SAML
-
Campo de nome de usuário XPath - XPath para o campo de entrada do nome de usuário (por exemplo,
//input[@id='username']) -
Botão de nome de usuário XPath (opcional) - XPath para o campo do botão de nome de usuário (por exemplo,
//input[@id='username_button']) -
Campo de senha XPath - XPath para o campo de entrada de senha (por exemplo,
//input[@id='password']) -
Botão de senha XPath - XPath para botão de senha (por exemplo,
//button[@type='password'])
XPath exemplos de configuração
Use esses XPath exemplos para configurar o formulário e a autenticação SAML:
Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]
Configurar a integração do Web Crawler
Depois de preparar seus requisitos de acesso ao site, crie a integração do Web Crawler no Amazon Quick Suite.
-
No console do Amazon Quick Suite, escolha Integrações.
-
Escolha Web Crawler nas opções de integração e clique no botão Adicionar (mais o botão “+”).
-
Escolha Acessar dados do Web Crawler. A integração do Web Crawler oferece suporte somente ao acesso aos dados - a execução da ação não está disponível para rastreamento na Web.
-
Configure os detalhes da integração e o método de autenticação e, em seguida, crie bases de conhecimento conforme necessário.
-
Selecione o tipo de autenticação para sua integração com o rastreador da web.
-
Preencha os detalhes necessários com base no método de autenticação selecionado.
-
Selecione Criar e continuar.
-
Preencha o nome e a descrição da sua base de conhecimento.
-
Adicione o conteúdo URLs que você deseja rastrear.
-
Escolha Criar.
-
Depois de clicar em criar, a sincronização de dados é iniciada automaticamente.
Configurar o rastreamento
Você pode configurar quais sites e páginas rastrear e como filtrar o conteúdo.
Configuração URLs e fontes de conteúdo
Configure quais sites e páginas devem ser rastreados:
Direto URLs
Especifique URLs a pessoa a ser rastreada:
https://example.com/docs https://example.com/blog https://example.com/support
Limite: máximo de 10 URLs por conjunto de dados
Filtros de conteúdo e configurações de rastreamento
Configurações do escopo de rastreamento
Para visualizar essas configurações, você deve primeiro configurar uma base de conhecimento e, em seguida, examinar a opção de configurações avançadas.
- Profundidade de rastreamento
-
Intervalo: 0-10 (padrão: 1)
0 = rastreamento especificado somente URLs
1 = incluir páginas vinculadas com um nível de profundidade
Valores mais altos seguem links mais profundos no site
- Máximo de links por página
-
Padrão: 1000
Máximo: 1.000
Controla quantos links seguir em cada página
- Tempo de Wait (Espera)
-
Padrão: 1
-
A quantidade de tempo que o rastreador da Web aguardará por cada página após a página atingir o estado “página pronta”. Isso é útil para páginas com características de carregamento dinâmico de javascript, nas quais a página tem blocos de conteúdo que são carregados após o carregamento do modelo principal. Aumente o tempo de espera se você tiver conteúdo visualmente rico ou preveja tempos de carregamento altos.
Gerencie bases de conhecimento
Depois de configurar sua integração com o Web Crawler, você pode criar e gerenciar bases de conhecimento a partir do conteúdo do seu site rastreado.
Edite as bases de conhecimento existentes
Você pode modificar suas bases de conhecimento existentes do Web Crawler:
-
No console do Amazon Quick Suite, escolha Bases de conhecimento.
-
Selecione sua base de conhecimento do Web Crawler na lista.
-
Escolha o ícone de três pontos em Ações e escolha Editar base de conhecimento.
-
Atualize suas configurações conforme necessário e escolha Salvar.
Crie bases de conhecimento adicionais
Você pode criar várias bases de conhecimento a partir da mesma integração do Web Crawler:
-
No console do Amazon Quick Suite, escolha Integrações e, em seguida, selecione a guia Dados.
-
Escolha sua integração existente com o Web Crawler na lista.
-
Escolha o ícone de três pontos em Ações e, em seguida, escolha Criar base de conhecimento.
-
Defina as configurações da sua base de conhecimento e escolha Criar.
Para obter informações detalhadas sobre as opções de configuração da base de conhecimento, consulteConfigurações comuns.
Anexos e rastreamento de arquivos
Controle se o sistema processa arquivos e anexos vinculados a páginas da web:
-
Ativar rastreamento de anexos de arquivos - Selecione essa opção para rastrear e indexar arquivos e anexos encontrados em páginas da Web PDFs, como documentos e arquivos de mídia.
Comportamento de rastreamento e configuração de sincronização
Sua integração com o Web Crawler segue estas práticas de rastreamento:
Modelo de sincronização incremental: a primeira sincronização executa o rastreamento completo, as sincronizações subsequentes capturam somente as alterações
Nova tentativa automática: lógica de repetição integrada para solicitações com falha
Manipulação de duplicatas: detecção e manuseio automáticos de URLs
Identificação do rastreador: <UUID>se identifica com a string do agente de usuário "aws-quick-on-behalf-of-" nos cabeçalhos da solicitação
Conformidade com Robots.txt
O Web Crawler respeita o protocolo robots.txt e honra o agente de usuário e as diretivas. allow/disallow Isso permite que você controle como o rastreador acessa seu site.
Como funciona a verificação de robots.txt
Verificação no nível do host: o Web Crawler lê arquivos robots.txt no nível do host (por exemplo, example.com/robots.txt)
Suporte a vários hosts: para domínios com vários hosts, o Web Crawler respeita as regras de robôs para cada host separadamente
Comportamento alternativo: se o Web Crawler não conseguir buscar o robots.txt devido a bloqueios, erros de análise ou tempos limite, ele se comportará como se o robots.txt não existisse e rastreará o site
Campos robots.txt compatíveis
O Web Crawler reconhece esses campos do robots.txt (os nomes dos campos não diferenciam maiúsculas de minúsculas, os valores diferenciam maiúsculas de minúsculas):
user-agentIdentifica a qual rastreador as regras se aplicam
allowUm caminho de URL que pode ser rastreado
disallowUm caminho de URL que pode não ser rastreado
sitemapO URL completo de um sitemap
crawl-delayTempo de espera especificado (em segundos) entre as solicitações ao seu site
Suporte para metatags
O Web Crawler suporta metatags de robôs em nível de página que você pode usar para controlar como seus dados são usados. Você pode especificar as configurações no nível da página incluindo uma metatag em páginas HTML ou em um cabeçalho HTTP.
Metatags suportadas
noindexNão indexe a página. Se você não especificar essa regra, a página poderá ser indexada e qualificada para aparecer em experiências
nofollowNão siga os links desta página. Se você não especificar essa regra, o Web Crawler poderá usar os links na página para descobrir essas páginas vinculadas
Você pode combinar vários valores usando uma vírgula (por exemplo, “noindex, nofollow”).
nota
Para detectar metatags, o Web Crawler precisa acessar sua página, portanto, não bloqueie sua página com robots.txt, o que impedirá que ela seja rastreada novamente.
Solução de problemas
Use esta seção para resolver problemas comuns com a integração do Web Crawler.
Falhas de autenticação
Sintomas:
Mensagens de erro “Não foi possível autenticar”
401/403 respostas HTTP
Loops de redirecionamento da página de login
Erros de tempo limite da sessão
Etapas de resolução:
Verifique se o site pode ser acessado a partir da AWS região em que a instância do Amazon Quick Suite está configurada
Verifique a precisão das credenciais e garanta que elas não tenham expirado
Verifique a disponibilidade e a acessibilidade do endpoint de autenticação
Valide XPath as configurações testando-as nas ferramentas do desenvolvedor do navegador
Analise os registros de rede do navegador para entender o fluxo de autenticação
Certifique-se de que o URL da página de login esteja correto e acessível
Teste a autenticação manualmente usando as mesmas credenciais
Problemas de acesso e conectividade
Sintomas:
Tempos limite de conexão e erros de rede
Erros de rede inacessíveis
Falhas na resolução de DNS
Etapas de resolução:
-
Verifique a conectividade de rede com os sites de destino
-
Valide a acessibilidade do site:
Verifique a resolução de DNS para domínios de destino
Verifique a SSL/TLS configuração e os certificados
Teste o acesso de redes diferentes, se possível
Problemas de rastreamento e conteúdo
Sintomas:
Conteúdo ausente ou incompleto
Rastreamentos incompletos ou rescisão antecipada
Erros de limitação de taxa (429 respostas)
O conteúdo não está sendo indexado corretamente
Etapas de resolução:
-
Analise as restrições do robots.txt:
Verifique se há restrições de rastreamento no arquivo robots.txt
Verifique se o rastreador tem permissão para acessar os caminhos de destino
Certifique-se de que a conformidade com o robots.txt não esteja bloqueando o conteúdo
-
Verifique a limitação e a limitação da taxa:
Monitore os cabeçalhos de resposta para obter informações sobre limite de taxa
Implemente atrasos de rastreamento apropriados
-
Verifique os padrões e filtros de URL:
Teste padrões de regex para maior precisão
Verifique a formatação e a estrutura do URL
Valide a lógica do include/exclude padrão
-
Analise as restrições de conteúdo:
Verifique se há metatags sem índice nas páginas
Verifique o suporte ao tipo de conteúdo
Garanta que o tamanho do conteúdo esteja dentro dos limites
-
Atualize o Tempo de espera para um valor apropriado para que o conteúdo seja carregado na página antes que o rastreador tente rastrear
Limitações conhecidas
A integração do Web Crawler tem as seguintes limitações:
Limites de URL: máximo de 10 URLs, mapa do site não suportado
Profundidade de rastreamento: profundidade máxima de rastreamento de 10 níveis
Requisitos de segurança: HTTPS necessário para configurações de proxy da web