Amazon S3 - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Amazon S3

Amazon S3 é um serviço de armazenamento de objetos que armazena dados como objetos dentro de buckets. Você pode usar Amazon Kendra para indexar seu repositório de documentos em Amazon S3 bucket.

Atenção

Amazon Kendra não usa uma política de bucket que conceda permissões a um Amazon Kendra principal para interagir com um bucket do S3. Em vez disso, ele usa IAM funções. Certifique-se de que isso Amazon Kendra não esteja incluído como membro confiável em sua política de bucket para evitar problemas de segurança de dados ao conceder permissões acidentalmente a diretores arbitrários. No entanto, você pode adicionar uma política de bucket para usar um bucket do Amazon S3 em contas diferentes. Para obter mais informações, consulte Políticas para uso do Amazon S3 em todas as contas (na guia Funções do IAM S3, em Funções para fontes de dados do IAM ). Para obter informações sobre IAM funções para fontes de dados do S3, consulte IAM funções.

nota

Amazon Kendra agora oferece suporte a um Amazon S3 conector atualizado.

O console foi atualizado automaticamente para você. Todos os novos conectores que você criar no console usarão a arquitetura atualizada. Se você usa a API, agora deve usar o TemplateConfigurationobjeto em vez do S3DataSourceConfiguration objeto para configurar seu conector.

Os conectores configurados usando o console antigo e a arquitetura de API continuarão funcionando conforme configurados. No entanto, você não poderá editá-los ou atualizá-los. Se você quiser editar ou atualizar a configuração do conector, deverá criar um novo conector.

Recomendamos migrar o fluxo de trabalho do conector para a versão atualizada. O suporte para conectores configurados usando a arquitetura mais antiga está programado para terminar em junho de 2024.

Você pode se conectar à sua fonte de Amazon S3 dados usando o Amazon Kendra console ou a TemplateConfigurationAPI.

nota

Para gerar um relatório de status de sincronização para sua fonte de Amazon S3 dados, consulte Solução de problemas com fontes de dados.

Para solucionar problemas do conector da fonte de dados Amazon Kendra S3, consulteSolucionar problemas de origens de dados.

Atributos compatíveis

  • Mapeamentos de campos

  • Controle de acesso do usuário

  • Filtros de inclusão/exclusão

  • Sincronizações de conteúdo completas e incrementais

  • Nuvem privada virtual (VPC)

Pré-requisitos

Antes de poder usar Amazon Kendra para indexar sua fonte de dados do S3, faça essas alterações no S3 e AWS nas contas.

No S3, verifique se você:

  • Copiou o nome do seu Amazon S3 bucket.

    nota

    Seu bucket deve estar na mesma região do seu Amazon Kendra índice e seu índice deve ter permissão para acessar o bucket que contém seus documentos.

  • Verifique se cada documento é exclusivo no S3 e outras fontes de dados que você planeja usar para o mesmo índice. Cada fonte de dados que você deseja usar para um índice não deve conter o mesmo documento em todas as fontes de dados. Os IDs de documentos são globais para um índice e devem ser exclusivos por índice.

Em sua AWS conta, verifique se você tem:

Se você não tiver uma IAM função existente, poderá usar o console para criar uma nova IAM função ao conectar sua fonte de dados do S3 a. Amazon Kendra Se você estiver usando a API, deverá fornecer o ARN de uma IAM função existente e um ID de índice.

Instruções de conexão

Para se conectar Amazon Kendra à sua fonte de dados do S3, você deve fornecer os detalhes necessários da sua fonte de dados do S3 para que Amazon Kendra possa acessar seus dados. Se você ainda não configurou o S3 para Amazon Kendra, consultePré-requisitos.

Console

Para se conectar Amazon Kendra a Amazon S3

  1. Faça login no AWS Management Console e abra o Amazon Kendra console.

  2. No painel de navegação esquerdo, escolha Índices e, em seguida, escolha o índice que deseja usar na lista de índices.

    nota

    Você pode escolher definir ou editar as configurações de Controle de acesso do usuário em Configurações do índice.

  3. Na página Introdução, escolha Adicionar fonte de dados.

  4. Na página Adicionar fonte de dados, escolha Conector S3 e, em seguida, escolha Adicionar conector. Se estiver usando a versão 2 (se aplicável), escolha o conector S3 com a tag “V2.0".

  5. Na página Especar detalhes da fonte de dados, insira as seguintes informações:

    1. Em Nome e descrição, em Nome da fonte de dados: insira um nome para a fonte de dados. Você pode incluir hífens, mas não espaços.

    2. (Opcional) Descrição: insira uma descrição opcional para a fonte de dados.

    3. Em Idioma padrão — Escolha um idioma para filtrar seus documentos para o índice. A menos que você especifique o contrário, o idioma padrão é o inglês. O idioma especificado nos metadados do documento substitui o idioma selecionado.

    4. Em Tags, em Adicionar nova tag — Inclua tags opcionais para pesquisar e filtrar seus recursos ou monitorar seus AWS custos.

    5. Escolha Próximo.

  6. Na página Definir seção e segurança, insira as informações opcionais a seguir:

    1. IAM função — Escolha uma IAM função existente ou crie uma nova IAM função para acessar as credenciais do repositório e indexar o conteúdo.

      nota

      IAM as funções usadas para índices não podem ser usadas para fontes de dados. Se você não tiver certeza se uma função existente é usada para um índice ou perguntas frequentes, escolha Criar uma nova função para evitar erros.

    2. Nuvem privada virtual (VPC): você pode escolher usar uma VPC. Nesse caso, você deve adicionar sub-redes e grupos de segurança da VPC.

    3. Escolha Próximo.

  7. Na página Configurar configurações de sincronização, insira as seguintes informações:

    1. Para localização da fonte de dados — especifique o caminho para o Amazon S3 bucket em que seus dados estão armazenados. Selecione Procurar no S3 para escolher seu bucket do S3.

    2. Para Tamanho máximo do arquivo — especifique um limite em MB para rastrear somente arquivos abaixo desse limite. O tamanho Amazon Kendra máximo de arquivo permitido é de 50 MB.

    3. Para arquivos de metadados (opcional), prefixe a localização da pasta — especifique o caminho para a pasta na qual seus campos/atributos e outros metadados do documento estão armazenados. Selecione Procurar no S3 para localizar a pasta de metadados.

    4. Para (opcional) localização do arquivo de configuração da lista de controle de acesso — especifique o caminho para o arquivo que contém uma estrutura JSON de seus usuários e seu acesso aos documentos. Selecione Procurar S3 para localizar o arquivo ACL.

    5. (Opcional) Selecione a chave de decodificação: selecione para usar uma chave de decodificação. Você pode optar por usar uma AWS KMS chave existente.

    6. Para configuração adicional (opcional) — adicione padrões para incluir ou excluir determinados arquivos. Todos os caminhos são relativos ao bucket S3 da localização da fonte de dados.

    7. Modo de sincronização: escolha como você deseja atualizar o índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização.

      • Sincronização completa: indexe todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados for sincronizada com seu índice.

      • Sincronização nova, modificada e excluída: indexe somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

    8. Em Cronograma de execução de sincronização, em Frequência — Escolha com que frequência sincronizar o conteúdo da fonte de dados e atualizar seu índice.

    9. Escolha Próximo.

  8. Na página Definir mapeamentos de campo, insira as seguintes informações opcionais:

    1. Mapeamentos de campo padrão — Selecione entre os campos de fonte de dados padrão Amazon Kendra gerados que você deseja mapear para o seu índice.

    2. Adicionar campo: para adicionar campos de fonte de dados personalizados, crie um nome de campo de índice para mapear e o tipo de dados do campo.

    3. Escolha Próximo.

  9. Na página Revisar e criar, verifique se as informações inseridas estão corretas e selecione Adicionar fonte de dados. Você também pode optar por editar as informações a partir desta página. Sua fonte de dados aparecerá na página Fontes de dados depois que a fonte de dados for adicionada com sucesso.

API

Para se conectar Amazon Kendra a Amazon S3

Você deve especificar um JSON do esquema da fonte de dados usando a TemplateConfigurationAPI. Você deve fornecer as seguintes informações:

  • Fonte de dados — especifique o tipo de fonte de dados como S3 quando você usa o esquema TemplateConfigurationJSON. Também especifique a fonte de dados como TEMPLATE quando você chama a CreateDataSourceAPI.

  • BucketName— O nome do bucket que contém os documentos.

  • Modo de sincronização — especifique como Amazon Kendra você deve atualizar seu índice quando o conteúdo da fonte de dados for alterado. Quando você sincroniza sua fonte de dados Amazon Kendra pela primeira vez, todo o conteúdo é rastreado e indexado por padrão. Você deve executar uma sincronização completa dos seus dados se a sincronização inicial falhar, mesmo que você não escolha a sincronização completa como opção de modo de sincronização. Escolha uma das seguintes opções:

    • FORCED_FULL_CRAWLpara indexar todo o conteúdo de forma atualizada, substituindo o conteúdo existente sempre que sua fonte de dados é sincronizada com seu índice.

    • FULL_CRAWLpara indexar somente conteúdo novo, modificado e excluído sempre que sua fonte de dados for sincronizada com seu índice. Amazon Kendra pode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e indexar o conteúdo que foi alterado desde a última sincronização.

  • IAM role — Especifique RoleArn quando você chama CreateDataSource para fornecer uma IAM função com permissões para acessar seu Secrets Manager segredo e chamar as APIs públicas necessárias para o conector S3 e. Amazon Kendra Para obter mais informações, consulte Funções para o IAM das fontes de dados do S3.

Você também pode adicionar os seguintes recursos opcionais:

  • Nuvem privada virtual (VPC): especifique a VpcConfiguration quando ao chamar CreateDataSource. Para ter mais informações, consulte Configuração Amazon Kendra para usar um Amazon VPC.

  • Filtros de inclusão e exclusão — especifique se deseja incluir ou excluir determinados nomes de arquivo, tipos de arquivo e caminhos de arquivo. Você usa padrões globais (padrões que podem expandir um padrão curinga em uma lista de nomes de caminhos que correspondem ao padrão fornecido). Para ver exemplos, consulte Uso de filtros de exclusão e inclusão na referência de comandos da AWS CLI.

  • Configuração de metadados do documento e controle de acesso — adicione metadados do documento e arquivos de controle de acesso que contenham informações como o URI de origem, o autor do documento ou os atributos/campos personalizados do documento e seus usuários e quais documentos eles podem acessar. Cada arquivo de metadados contém metadados sobre um único documento.

  • Mapeamentos de campo: escolha mapear os campos de fonte de dados do S3 para os campos de índice do Amazon Kendra . Para obter mais informações, consulte Mapear campos de fonte de dados.

    nota

    O campo do corpo do documento ou o corpo do documento equivalente para seus documentos é obrigatório Amazon Kendra para pesquisar seus documentos. Você deve mapear o nome do campo do corpo do documento na fonte de dados para o nome do campo de índice_document_body. Todos os demais campos são opcionais.

Para ver uma lista de outras chaves JSON importantes a serem configuradas, consulte o Esquema do modelo do S3.

Saiba mais

Para saber mais sobre a integração Amazon Kendra com sua fonte de dados do S3, consulte: