As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Amazon Kendra Conector Web Crawler v2.0
Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.
Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.
Amazon Kendra O Web Crawler v2.0 usa o pacote Selenium web crawler e um driver Chromium. Amazon Kendra atualiza automaticamente a versão do Selenium e do driver Chromium usando a Integração Contínua (CI).
Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Amazon Kendra Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para indexar. Para saber como impedir que o Amazon Kendra Web Crawler indexe seu (s) site (s), consulte. Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra . Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.
Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados
O conector Web Crawler v2.0 não suporta o rastreamento de listas de sites da Web a partir de buckets criptografados. AWS KMS Amazon S3 Ele suporta somente criptografia do lado do servidor com chaves gerenciadas Amazon S3 .
A criação do conector Web Crawler v2.0 não é suportada pelo. AWS CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. AWS CloudFormation
Atributos compatíveis
-
Mapeamentos de campos
-
Filtros de inclusão/exclusão
-
Sincronizações de conteúdo completas e incrementais
-
Proxy da Web
-
Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites
-
Nuvem privada virtual (VPC)
Pré-requisitos
Antes de usar Amazon Kendra para indexar seus sites, verifique os detalhes de seus sites e AWS contas.
Para os sites, verifique se você tem:
-
Copiou os URLs semente ou mapa dos sites nos quais você deseja fazer o crawling. Você pode armazenar os URLs em um arquivo de texto e enviá-los para um bucket do Amazon S3
. Cada URL no arquivo de texto deve ser formatado em uma linha separada. Se você quiser armazenar seus sitemaps em um Amazon S3 bucket, certifique-se de ter copiado o XML do sitemap e salvado em um arquivo XML. Você também pode agrupar vários arquivos XML de mapa do site em um arquivo ZIP.
(Local/servidor) Amazon Kendra verifica se as informações do endpoint incluídas são iguais às informações do endpoint especificadas nos AWS Secrets Manager detalhes de configuração da fonte de dados. Isso ajuda a proteger contra o problema de assistência confusa, que é um problema de segurança em que um usuário não tem permissão para realizar uma ação, mas usa o Amazon Kendra como proxy para acessar a senha configurada e realizar a ação. Se você alterar posteriormente as informações do endpoint, crie uma nova senha para sincronizar essas informações.
-
Para sites que exigem autenticação básica, NTLM ou Kerberos:
-
Para sites que exigem autenticação por SAML ou formulário de login:
-
Anote suas credenciais de autenticação do site, que incluem um nome de usuário e senha.
-
Copiou o XPaths (XML Path Language) do campo do nome do usuário (e o botão do nome do usuário se estiver usando SAML), do campo e do botão da senha e copiou o URL da página de login. Você pode encontrar os XPaths dos elementos usando as ferramentas de desenvolvedor do navegador da Web. Os XPaths geralmente seguem este formato://tagname[@Attribute='Value']
.
Amazon Kendra O Web Crawler v2.0 usa um navegador Chrome sem cabeçalho e as informações do formulário para autenticar e autorizar o acesso com um URL protegido pelo OAuth 2.0.
-
Opcional: copiou o nome do host e o número da porta se quiser usar um servidor do proxy da web para se conectar aos sites internos que você deseja rastrear. O proxy da web deve estar voltado para o público. Amazon Kendra suporta a conexão com servidores proxy da web que são apoiados pela autenticação básica ou você pode se conectar sem autenticação.
-
Opcional: copiou o ID da sub-rede da nuvem privada virtual (VPC) se você quiser usar uma VPC para se conectar aos sites internos que deseja rastrear. Para obter mais informações, consulte Configurando um Amazon VPC.
-
Verificou se cada documento de página da Web que você deseja indexar é único e em outras fontes de dados que você planeja usar para o mesmo índice. Cada fonte de dados que você deseja usar para um índice não deve conter o mesmo documento em todas as fontes de dados. Os IDs de documentos são globais para um índice e devem ser exclusivos por índice.
Em sua AWS conta, verifique se você tem:
-
Criou um Amazon Kendra índice e, se estiver usando a API, anotei o ID do índice.
-
Criou uma IAM função para sua fonte de dados e, se estiver usando a API, anotei o nome de recurso da Amazon da IAM função.
Se você alterar o tipo de autenticação e as credenciais, deverá atualizar sua IAM função para acessar a ID AWS Secrets Manager secreta correta.
-
Para sites que exigem autenticação, ou se estiverem usando um proxy da web com autenticação, armazenaram suas credenciais de autenticação em um AWS Secrets Manager segredo e, se estiverem usando a API, anotaram o ARN do segredo.
Recomendamos que você atualize ou alterne regularmente as credenciais e as senhas. Forneça somente o nível de acesso necessário para sua própria segurança. Não recomendamos que você reutilize credenciais e senhas nas fontes de dados e nas versões 1.0 e 2.0 do conector (quando for aplicável).
Se você não tiver uma IAM função ou segredo existente, poderá usar o console para criar uma nova IAM função e um novo Secrets Manager segredo ao conectar sua fonte de web crawler dados Amazon Kendra a. Se você estiver usando a API, deverá fornecer o ARN de uma IAM função e Secrets Manager segredo existentes e um ID de índice.
Instruções de conexão
Para se conectar Amazon Kendra à sua fonte de web crawler dados, você deve fornecer os detalhes necessários da sua fonte de web crawler dados para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou web crawler para Amazon Kendra verPré-requisitos.
- Console
-
Para se conectar Amazon Kendra a web crawler
-
Faça login no AWS Management Console e abra o Amazon Kendra console.
-
No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.
Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.
-
Na página Introdução, escolha Adicionar fonte de dados.
-
Na página Adicionar fonte de dados, escolha conector do web crawler e, em seguida, escolha Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o conector do web crawler com a tag “V2.0".
-
Na página Especar detalhes da fonte de dados, insira as seguintes informações:
-
Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.
-
(Opcional) Descrição: insira uma descrição opcional para a fonte de dados.
-
Em Idioma padrão — Escolha um idioma para filtrar seus documentos para o índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.
-
Em Tags, em Adicionar nova tag — Inclua tags opcionais para pesquisar e filtrar seus recursos ou monitorar seus AWS custos.
-
Escolha Próximo.
-
Na página Definir seção e segurança, insira as informações a seguir:
-
Fonte : escolha os URLs de fonte, mapas de sites de fonte, arquivo de URLs de fonte e arquivo de mapas de site de fonte. Se você optar por usar um arquivo de texto que inclua uma lista de até 100 URLs iniciais, especifique o caminho para o Amazon S3 bucket em que seu arquivo está armazenado. Se você optar por usar um arquivo XML de mapa do site, especifique o caminho para o bucket do Amazon S3 em que o arquivo está armazenado. Você também pode agrupar vários arquivos XML de mapa do site em um arquivo ZIP. Caso contrário, você pode inserir manualmente até 10 URLs semente ou de partida e até 3 URLs de mapa.
Se quiser rastrear um sitemap, verifique se o URL base ou raiz é o mesmo que os URLs listados na página do mapa do site. Por exemplo, se o URL do mapa do site para https://example.com/sitemap-page.html, os URLs listados nessa página do mapa do site também devem usar o URL base "https://example.com/".
Se os sites precisarem de autenticação para acessar os sites, você poderá escolher a autenticação básica, NTLM/Kerberos, SAML ou de formulário. Caso contrário, escolha a opção sem autenticação.
Se você quiser editar posteriormente a fonte de dados para alterar os URLs iniciais com autenticação em mapas de site, você deve crie uma nova fonte de dados. O Amazon Kendra configura a fonte de dados usando as informações do endpoint dos URLs iniciais na senha do Secrets Manager para autenticação e, portanto, não pode reconfigurar a fonte de dados ao mudar para os mapas do site.
-
AWS Secrets Manager
segredo — Se seus sites precisarem da mesma autenticação para acessar os sites, escolha um segredo existente ou crie um novo Secrets Manager segredo para armazenar as credenciais do seu site. Se você optar por criar um novo segredo, uma janela AWS Secrets Manager secreta será aberta.
Se escolher a Autenticação básica ou NTML/Kerberos, insira um nome para o segredo o nome de usuário e a senha. O protocolo de autenticação NTLM inclui hash de senha e o protocolo de autenticação Kerberos inclui criptografia de senha.
Se escolher a Autenticação Formulário ou SAML, insira um nome para o segredo o nome de usuário e a senha. Use XPath para o campo de nome de usuário (e XPath para o botão de nome de usuário se estiver usando SAML). Use XPaths para o campo e botão de senha e URL da página de login. Você pode encontrar os XPaths (XML Path Language) dos elementos usando as ferramentas de desenvolvedor do navegador. Os XPaths geralmente seguem este formato: //tagname[@Attribute='Value']
.
-
(Opcional) Proxy da Web: insira o nome do host e o número da porta do servidor proxy que deseja usar para se conectar aos sites internos. Por exemplo, o nome do host https://a.example.com/page1.html é "a.example.com" e o número da porta é 443, a porta padrão para HTTPS. Se forem necessárias credenciais de proxy da web para se conectar a um host de site, você poderá criar uma AWS Secrets Manager que armazene as credenciais.
-
Nuvem privada virtual (VPC): você pode escolher usar uma VPC. Nesse caso, você deve adicionar sub-redes e grupos de segurança da VPC.
-
IAM função — Escolha uma IAM função existente ou crie uma nova IAM função para acessar as credenciais do repositório e indexar o conteúdo.
IAM as funções usadas para índices não podem ser usadas para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ou perguntas frequentes, escolha Criar uma nova função para evitar erros.
-
Escolha Próximo.
-
Na página Configurações de sincronização, insira as seguintes informações:
-
Escopo de sincronização: defina limites para rastrear páginas da Web, incluindo domínios, tamanhos de arquivo e links, e filtre URLs usando padrões de regex.
-
(Opcional) Intervalo de domínios de rastreamento: escolha se deseja rastrear somente domínios de sites, domínios com subdomínios ou também rastrear outros domínios aos quais as páginas da Web estão vinculadas. Por padrão, rastreia Amazon Kendra apenas os domínios dos sites que você deseja rastrear.
-
(Opcional) Configurações adicionais: defina as seguintes configurações opcionais:
-
Profundidade do crawling: a “profundidade” ou número de níveis do nível semente para crawling. Por exemplo, a página de URL semente tem profundidade 1 e todos os hiperlinks nessa página que também são rastreados têm profundidade 2.
-
Tamanho máximo do arquivo: o tamanho máximo em MB da página da Web ou do anexo a ser rastreado.
-
Máximo de links por página: o número máximo de URLs em uma página da Web a serem incluídos no crawling.
-
Controle de utilização e velociade de crawling máximos: o número máximo de URLs que o crawling percorre por nome de host por minuto.
-
Arquivos: escolha para rastrear arquivos aos quais as páginas da web estão vinculadas.
-
URLs para indexar e rastrear: uma lista de padrões de expressão regular que inclui o crawling de determinados URLs e a indexação de quaisquer hiperlinks nessas páginas da Web com URL.
-
Modo de sincronização: escolha como você deseja atualizar o índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização.
-
Sincronização completa: indexe todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados for sincronizada com seu índice.
-
Sincronização nova, modificada e excluída: indexe somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
-
Cronograma de execução da sincronização: em Frequência, escolha com que frequência o Amazon Kendra será sincronizado com a fonte de dados.
-
Escolha Próximo.
-
Na página Definir mapeamentos de campo, insira as seguintes informações:
-
Selecione entre os campos padrão Amazon Kendra gerados de páginas da Web e arquivos que você deseja mapear para o seu índice.
-
Escolha Próximo.
-
Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.
- API
-
Para se conectar Amazon Kendra a web crawler
Você deve especificar um JSON do esquema da fonte de dados usando a API TemplateConfiguration. Você deve fornecer as seguintes informações:
-
Fonte de dados — especifique o tipo de fonte de dados como WEBCRAWLERV2
quando você usa o esquema TemplateConfigurationJSON. Também especifique a fonte de dados como TEMPLATE
quando você chama a CreateDataSourceAPI.
-
URLs: especifica os URLs semente, ou de partida, ou os URLs de mapa dos sites nos quais você deseja fazer o crawling usando e . Você pode especificar o caminho para um Amazon S3 bucket que armazena sua lista de URLs iniciais. Cada URL no arquivo de texto para os URLS semente deve ser formatado em uma linha separada. Você também pode especificar o caminho para um Amazon S3 bucket que armazena os arquivos XML do seu sitemap. Você pode agrupar vários arquivos do mapa do site em um arquivo ZIP e armazená-lo em seu bucket do Amazon S3
.
Se quiser rastrear um sitemap, verifique se o URL base ou raiz é o mesmo que os URLs listados na página do mapa do site. Por exemplo, se o URL do mapa do site para https://example.com/sitemap-page.html, os URLs listados nessa página do mapa do site também devem usar o URL base "https://example.com/".
-
Modo de sincronização — especifique como Amazon Kendra você deve atualizar seu índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização. Escolha uma das seguintes opções:
-
FORCED_FULL_CRAWL
para indexar todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados é sincronizada com seu índice.
-
FULL_CRAWL
para indexar somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.
-
Autenticação: se os sites exigirem a mesma autenticação, especifique a autenticação BasicAuth
, NTLM_Kerberos
, SAML
ou Form
. Se os sites não precisarem de autenticação, especifique NoAuthentication
.
-
Nome do recurso da Amazon (ARN) da senha: se os sites exigirem autenticação básica, NTLM ou Kerberos, você fornecerá uma senha que armazena as credenciais de autenticação de nome de usuário e senha. Forneça o nome do recurso da Amazon (ARN) da senha do AWS Secrets Manager . A senha deve conter uma estrutura JSON com as seguintes chaves:
{
"seedUrlsHash": "Hash representation of all seed URLs
",
"userName": "user name
",
"password": "password
"
}
Se o site precisar de uma autenticação OAuth2, a senha deverá conter uma estrutura JSON com as seguintes chaves:
{
"seedUrlsHash": "Hash representation of all seed URLs
",
"userName": "user name
",
"password": "password
",
"userNameFieldXpath": "XPath for user name field
",
"userNameButtonXpath": "XPath for user name button
",
"passwordFieldXpath": "XPath for password field
",
"passwordButtonXpath": "XPath for password button
",
"loginPageUrl": "Full URL for website login page
"
}
Se o site precisar de uma autenticação, a senha deverá conter uma estrutura JSON com as seguintes chaves:
{
"seedUrlsHash": "Hash representation of all seed URLs
",
"userName": "user name
",
"password": "password
",
"userNameFieldXpath": "XPath for user name field
",
"passwordFieldXpath": "XPath for password field
",
"passwordButtonXpath": "XPath for password button
",
"loginPageUrl": "Full URL for website login page
"
}
Você pode encontrar os XPaths (XML Path Language) dos elementos usando as ferramentas de desenvolvedor do navegador. Os XPaths geralmente seguem este formato: //tagname[@Attribute='Value']
.
Você também pode fornecer credenciais de proxy da web usando uma senha do AWS Secrets Manager .
-
IAM role — Especifique RoleArn
quando você liga CreateDataSource
para fornecer uma IAM função com permissões para acessar seu Secrets Manager segredo e chamar as APIs públicas necessárias para o conector do web crawler e. Amazon Kendra Para obter mais informações, consulte Funções do IAM para as fontes de dados do web crawler.
Você também pode adicionar os seguintes recursos opcionais:
-
Nuvem privada virtual (VPC): especifique a VpcConfiguration
quando ao chamar CreateDataSource
. Para ter mais informações, consulte Configurando Amazon Kendra para usar um Amazon VPC.
-
Faixa de domínio: escolha se deseja rastrear somente domínios de sites, domínios com subdomínios ou também rastrear outros domínios aos quais as páginas da Web estão vinculadas. Por padrão, rastreia Amazon Kendra apenas os domínios dos sites que você deseja rastrear.
-
A “profundidade” ou número de níveis do nível semente para crawling. Por exemplo, a página de URL semente tem profundidade 1 e todos os hiperlinks nessa página que também são rastreados têm profundidade 2.
-
O número máximo de URLs em uma página da Web a serem incluídos no crawling.
-
O tamanho máximo em MB de uma página da Web ou anexo para crawling.
-
O número máximo de URLs que o crawling percorre por host de site por minuto.
-
O host do proxy da web e o número da porta para se conectar e rastrear sites internos. Por exemplo, o nome do host https://a.example.com/page1.html é "a.example.com" e o número da porta é 443, a porta padrão para HTTPS. Se o proxy da Web exigir credenciais para se conectar ao host de um site, crie um AWS Secrets Manager que armazene as credenciais.
-
Filtros de inclusão e exclusão: especifique se deseja incluir ou excluir o rastreamento de determinados URLs e a indexação de quaisquer hiperlinks nessas páginas da Web com URL.
A maioria das fontes de dados usa padrões de expressão regular, que são padrões de inclusão ou exclusão chamados de filtros. Se você especificar um filtro de inclusão, somente o conteúdo que corresponda ao filtro de inclusão será indexado. Qualquer documento que não corresponda ao filtro de inclusão não é indexado. Se especificar um filtro de inclusão e exclusão, os documentos que corresponderem ao filtro de exclusão não serão indexados, mesmo que correspondam ao filtro de inclusão.
-
Mapeamentos de campo — Escolha mapear os campos de páginas da Web e arquivos de páginas da Web para seus Amazon Kendra campos de índice. Para obter mais informações, consulte Mapear campos de fonte de dados.
Para ver uma lista de outras chaves JSON importantes a serem configuradas, consulte o Esquema do modelo do Web Crawler do Amazon Kendra.