Rastreie páginas da web para sua base de conhecimento do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Rastreie páginas da web para sua base de conhecimento do Amazon Bedrock

O Web Crawler fornecido pelo Amazon Bedrock se conecta e rastreia URLs você selecionou para uso em sua base de conhecimento do Amazon Bedrock. Você pode rastrear as páginas do site de acordo com o escopo ou os limites definidos para as páginas selecionadas. URLs Você pode rastrear as páginas do site usando o AWS Console de gerenciamento para Amazon Bedrock ou o CreateDataSourceAPI(consulte Amazon Bedrock suportado) e SDKs AWS CLI).

nota

O rastreamento da web URLs como fonte de dados está na versão prévia e está sujeito a alterações.

Ao selecionar sites para rastrear, você deve seguir a Política de Uso Aceitável da Amazon e todos os outros termos da Amazon. Lembre-se de que você só deve usar o Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para rastrear.

O Web Crawler respeita o robots.txt de acordo com o 9309 RFC

Há limites para quantos itens de conteúdo de páginas da Web e MB por item de conteúdo podem ser rastreados. Consulte Cotas para bases de conhecimento.

Atributos compatíveis

O Web Crawler se conecta e rastreia HTML páginas a partir da sementeURL, percorrendo todos os links secundários sob o mesmo domínio e caminho principais. Se alguma das HTML páginas fizer referência a documentos compatíveis, o Web Crawler buscará esses documentos, independentemente de estarem no mesmo domínio principal principal. Você pode modificar o comportamento do rastreamento alterando a configuração do rastreamento - consulte. Configuração de conexão

O seguinte é suportado para você:

  • Selecione vários URLs para rastrear

  • Respeite as diretivas padrão do robots.txt, como 'Permitir' e 'Proibir'

  • Limite o escopo do URLs para rastrear e, opcionalmente, exclua aqueles URLs que correspondam a um padrão de filtro

  • Limite a taxa de rastreamento URLs

  • Veja o status de URLs visitado durante o rastreamento na Amazon CloudWatch

Pré-requisitos

Para usar o Web Crawler, certifique-se de:.

  • Verifique se você está autorizado a rastrear sua fonte. URLs

  • Verifique se o caminho para robots.txt correspondente à sua fonte URLs não impede que ele seja rastreado. URLs O Web Crawler segue os padrões do robots.txt: disallow por padrão, se o robots.txt não for encontrado para o site. O Web Crawler respeita o robots.txt de acordo com o 9309. RFC

  • Verifique se suas URL páginas de origem são geradas JavaScript dinamicamente, pois o rastreamento de conteúdo gerado dinamicamente não é suportado no momento. Você pode verificar isso digitando isso no seu navegador: view-source:https://examplesite.com/site/. Se o body elemento contiver somente um div elemento e poucos ou nenhum a href elemento, é provável que a página seja gerada dinamicamente. Você pode desativar JavaScript em seu navegador, recarregar a página da web e observar se o conteúdo é renderizado corretamente e contém links para suas páginas da web de interesse.

  • Ative a entrega de CloudWatch registros para ver o status do seu trabalho de ingestão de dados para ingestão de conteúdo da web e, se determinado, URLs não puder ser recuperado.

nota

Ao selecionar sites para rastrear, você deve seguir a Política de Uso Aceitável da Amazon e todos os outros termos da Amazon. Lembre-se de que você só deve usar o Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para rastrear.

Configuração de conexão

Para obter mais informações sobre o escopo de sincronização para rastreamentoURLs, filtros de inclusão/exclusão, URL acesso, sincronização incremental e como eles funcionam, selecione o seguinte:

Você pode limitar o escopo do URLs rastreamento com base na relação específica URL de cada página com a semente. URLs Para rastreamentos mais rápidos, você pode se limitar URLs àqueles com o mesmo hospedeiro e URL caminho inicial da semente. URL Para rastreamentos mais amplos, você pode optar por rastrear URLs com o mesmo host ou em qualquer subdomínio da semente. URL

Você pode escolher entre as opções a seguir.

  • Padrão: limite o rastreamento a páginas da Web que pertencem ao mesmo host e com o mesmo caminho inicialURL. Por exemplo, com uma semente URL de "https://aws.amazon.com/bedrock/", somente esse caminho e as páginas da Web que se estendem a partir desse caminho serão rastreados, como "https://aws.amazon.com/bedrock/agents/”. Irmãos URLs como "https://aws.amazon.com/ec2/" não são rastreados, por exemplo.

  • Somente host: limite o rastreamento para páginas da Web que pertencem ao mesmo host. Por exemplo, com uma semente URL de "https://aws.amazon.com/bedrock/“, as páginas da web com" https://aws.amazon.com "também serão rastreadas, como" https://aws.amazon.com /ec2”.

  • Subdomínios: inclua o rastreamento de qualquer página da web que tenha o mesmo domínio primário da semente. URL Por exemplo, com uma semente URL de "https://aws.amazon.com/bedrock/", qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como "”. https://www.amazon.com

nota

Verifique se você não está rastreando páginas da Web potencialmente excessivas. Não é recomendável rastrear sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O rastreamento de sites grandes levará muito tempo para ser rastreado.

Os tipos de arquivo compatíveis são rastreados independentemente do escopo e se não houver um padrão de exclusão para o tipo de arquivo.

Você pode incluir ou excluir alguns URLs de acordo com seu escopo. Os tipos de arquivo compatíveis são rastreados independentemente do escopo e se não houver um padrão de exclusão para o tipo de arquivo. Se você especificar um filtro de inclusão e exclusão e ambos corresponderem aURL, o filtro de exclusão terá precedência e o conteúdo da Web não será rastreado.

Importante

Filtros problemáticos de padrões de expressão regular que levam a um retrocesso catastrófico e olham para o futuro são rejeitados.

Um exemplo de um padrão de filtro de expressão regular para excluir URLs aquela extremidade com “.pdf” ou anexos de página PDF da web: “.*\ .pdf$

Você pode usar o Web Crawler para rastrear as páginas dos sites que você está autorizado a rastrear.

Ao selecionar sites para rastrear, você deve seguir a Política de Uso Aceitável da Amazon e todos os outros termos da Amazon. Lembre-se de que você só deve usar o Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para rastrear.

O Web Crawler respeita o robots.txt de acordo com o 9309 RFC

Cada vez que o Web Crawler é executado, ele recupera o conteúdo de tudo o URLs que é acessível a partir da fonte URLs e que corresponde ao escopo e aos filtros. Para sincronizações incrementais após a primeira sincronização de todo o conteúdo, o Amazon Bedrock atualizará sua base de conhecimento com conteúdo novo e modificado e removerá o conteúdo antigo que não está mais presente. Ocasionalmente, o rastreador pode não conseguir saber se o conteúdo foi removido do site; nesse caso, ele errará ao preservar o conteúdo antigo em sua base de conhecimento.

Para sincronizar sua fonte de dados com sua base de conhecimento, use StartIngestionJobAPIou selecione sua base de conhecimento no console e selecione Sincronizar na seção de visão geral da fonte de dados.

Importante

Todos os dados que você sincroniza da sua fonte de dados ficam disponíveis para qualquer pessoa com bedrock:Retrieve permissão para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Permissões da base de conhecimento.

Console

As etapas a seguir configuram o Web Crawler para sua base de conhecimento do Amazon Bedrock. Você configura o Web Crawler como parte das etapas de criação da base de conhecimento no console.

  1. Faça login no AWS Management Console usando uma IAMfunção com permissões do Amazon Bedrock e abra o console do Amazon Bedrock em. https://console.aws.amazon.com/bedrock/

  2. No painel de navegação esquerdo, selecione Bases de conhecimento.

  3. Na seção Bases de conhecimento, selecione Criar base de conhecimento.

  4. Forneça os detalhes da base de conhecimento.

    1. Forneça o nome da base de conhecimento e a descrição opcional.

    2. Forneça o AWS Identity and Access Management função para as permissões de acesso necessárias para criar uma base de conhecimento.

      nota

      A ferramenta IAM Uma função com todas as permissões necessárias pode ser criada para você como parte das etapas do console para criar uma base de conhecimento. Depois de concluir as etapas para criar uma base de conhecimento, o IAM a função com todas as permissões necessárias é aplicada à sua base de conhecimento específica.

    3. Crie as tags que você deseja atribuir à sua base de conhecimento.

    Vá para a próxima seção para configurar sua fonte de dados.

  5. Escolha o Web Crawler como sua fonte de dados e forneça os detalhes da configuração.

    (Opcional) Altere o nome da fonte de dados padrão e insira uma Descrição.

  6. Forneça a fonte URLs do que URLs você deseja rastrear. Você pode adicionar até 9 adicionais URLs selecionando Adicionar fonte URLs. Ao fornecer uma fonteURL, você confirma que está autorizado a rastrear seu domínio.

  7. Verifique as configurações avançadas. Opcionalmente, você pode alterar as configurações padrão selecionadas.

    Para KMS key nas configurações, você pode escolher uma chave personalizada ou usar a chave de criptografia de dados padrão fornecida.

    Ao converter seus dados em incorporações, Amazon Bedrock criptografa seus dados transitórios com uma chave que AWS possui e gerencia, por padrão. Você pode usar sua própria KMS chave. Para obter mais informações, consulte Criptografia do armazenamento de dados temporário durante a ingestão de dados.

    Para as configurações da política de exclusão de dados, você pode escolher:

    • Excluir: exclui todos os dados da sua fonte de dados que são convertidos em incorporações vetoriais após a exclusão de uma base de conhecimento ou recurso de fonte de dados. Observe que o armazenamento vetorial em si não é excluído, apenas os dados. Esse sinalizador é ignorado se um AWS a conta foi excluída.

    • Reter: retém todos os dados da sua fonte de dados que são convertidos em incorporações vetoriais após a exclusão de uma base de conhecimento ou recurso de fonte de dados. Observe que o armazenamento vetorial em si não será excluído se você excluir uma base de conhecimento ou um recurso de fonte de dados.

  8. Selecione uma opção para o escopo do rastreamento de sua fonte. URLs

    • Padrão: limite o rastreamento a páginas da Web que pertencem ao mesmo host e com o mesmo caminho inicialURL. Por exemplo, com uma semente URL de "https://aws.amazon.com/bedrock/", somente esse caminho e as páginas da Web que se estendem a partir desse caminho serão rastreados, como "https://aws.amazon.com/bedrock/agents/”. Irmãos URLs como "https://aws.amazon.com/ec2/" não são rastreados, por exemplo.

    • Somente host: limite o rastreamento para páginas da Web que pertencem ao mesmo host. Por exemplo, com uma semente URL de "https://aws.amazon.com/bedrock/“, as páginas da web com" https://aws.amazon.com "também serão rastreadas, como" https://aws.amazon.com /ec2”.

    • Subdomínios: inclua o rastreamento de qualquer página da web que tenha o mesmo domínio primário da semente. URL Por exemplo, com uma semente URL de "https://aws.amazon.com/bedrock/", qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como "”. https://www.amazon.com

    nota

    Verifique se você não está rastreando páginas da Web potencialmente excessivas. Não é recomendável rastrear sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O rastreamento de sites grandes levará muito tempo para ser rastreado.

    Os tipos de arquivo compatíveis são rastreados independentemente do escopo e se não houver um padrão de exclusão para o tipo de arquivo.

  9. Insira Limitação máxima da velocidade de rastreamento. Ingira URLs entre 1 e 300 URLs por host por minuto. Uma velocidade de rastreamento maior aumenta a carga, mas leva menos tempo.

  10. Para padrões URLRegex (opcional), você pode adicionar padrões de inclusão ou padrões de exclusão inserindo o padrão de expressão regular na caixa. Você pode adicionar até 25 padrões de filtro de inclusão e 25 de exclusão selecionando Adicionar novo padrão. Os padrões de inclusão e exclusão são rastreados de acordo com seu escopo. Se houver um conflito, o padrão de exclusão tem precedência.

  11. Escolha as configurações padrão ou personalizadas de fragmentação e análise.

    1. Se você escolher configurações personalizadas, selecione uma das seguintes opções de fragmentação:

      • Fragmentação de tamanho fixo: conteúdo dividido em partes de texto com o tamanho aproximado do token definido. Você pode definir o número máximo de tokens que não devem exceder um bloco e a porcentagem de sobreposição entre blocos consecutivos.

      • Fragmentação padrão: conteúdo dividido em partes de texto de até 300 tokens. Se um único documento ou parte do conteúdo contiver menos de 300 tokens, o documento não será mais dividido.

      • Fragmentação hierárquica: conteúdo organizado em estruturas aninhadas de partes pai-filho. Você define o tamanho máximo do token do fragmento principal e o tamanho máximo do token do fragmento secundário. Você também define o número absoluto de tokens de sobreposição entre partes consecutivas dos pais e partes secundárias consecutivas.

      • Fragmentação semântica: conteúdo organizado em partes de texto semanticamente semelhantes ou grupos de frases. Você define o número máximo de frases ao redor da frase de destino/atual para agrupar (tamanho do buffer). Você também define o limite do percentil do ponto de interrupção para dividir o texto em partes significativas. A fragmentação semântica usa um modelo básico. Visualizar Amazon Bedrock preços para obter informações sobre o custo dos modelos de fundação.

      • Sem fragmentação: cada documento é tratado como um único fragmento de texto. Talvez você queira pré-processar seus documentos dividindo-os em arquivos separados.

      nota

      Você não pode alterar a estratégia de fragmentação depois de criar a fonte de dados.

    2. Você pode escolher usar Amazon Bedrock O modelo básico da para analisar documentos para analisar mais do que o texto padrão. Você pode analisar dados tabulares em documentos com sua estrutura intacta, por exemplo. Visualizar Amazon Bedrock preços para obter informações sobre o custo dos modelos de fundação.

    3. Você pode optar por usar um AWS Lambda função para personalizar sua estratégia de fragmentação e como os atributos/campos de metadados do documento são tratados e ingeridos. Forneça o Amazon S3 localização do bucket para a entrada e saída da função Lambda.

    Vá para a próxima seção para configurar seu armazenamento de vetores.

  12. Escolha um modelo para converter seus dados em incorporações vetoriais.

    Crie um armazenamento vetorial para permitir que o Amazon Bedrock armazene, atualize e gerencie incorporações. Você pode criar rapidamente um novo repositório de vetores ou selecionar um repositório de vetores compatível que você criou. Se você criar um novo armazenamento de vetores, uma coleção e um índice de pesquisa vetorial Amazon OpenSearch Serverless com os campos obrigatórios serão configurados para você. Se você selecionar um repositório de vetores compatível, deverá mapear os nomes dos campos vetoriais e os nomes dos campos de metadados.

    Vá para a próxima seção para revisar as configurações da sua base de conhecimento.

  13. Verifique os detalhes da sua base de conhecimento. Você pode editar qualquer seção antes de começar a criar sua base de conhecimento.

    nota

    O tempo necessário para criar a base de conhecimento depende de suas configurações específicas. Quando a criação da base de conhecimento é concluída, o status da base de conhecimento muda para o estado de pronta ou disponível.

    Quando sua base de conhecimento estiver pronta e disponível, sincronize sua fonte de dados pela primeira vez e sempre que quiser manter seu conteúdo atualizado. Selecione sua base de conhecimento no console e selecione Sincronizar na seção de visão geral da fonte de dados.

CLI

Veja a seguir um exemplo de uma configuração do Web Crawler para sua base de conhecimento do Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ] } }, "type": "WEB" }