Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Documentos - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Documentos

Esta seção explica como Amazon Kendra indexa os diversos formatos de documentos suportados e os diferentes campos/atributos dos documentos.

Tipos ou formatos de documentos

Amazon Kendra oferece suporte a tipos ou formatos de documentos populares, como PDF, HTML PowerPoint, Word e muito mais. Um índice pode conter vários formatos de documento.

Amazon Kendra extrai o conteúdo dentro dos documentos para tornar os documentos pesquisáveis. Os documentos são analisados de forma a otimizar a pesquisa no texto extraído e em qualquer conteúdo tabular (tabelas HTML) dentro dos documentos. Isso significa estruturar os documentos em campos ou atributos que são usados para pesquisa. Os metadados do documento, como a data da última modificação, podem ser campos úteis para pesquisa.

Os documentos podem ser organizados em linhas e colunas. Por exemplo, cada documento é uma linha e cada campo/atributo do documento, como o título e o conteúdo do corpo, é uma coluna. Por exemplo, se você usa um banco de dados como fonte de dados, os dados devem ser estruturados ou organizados em linhas e colunas.

Você pode adicionar documentos ao índice das seguintes formas:

Se quiser adicionar um arquivo de perguntas frequentes, use a CreateFaqAPI para adicionar o arquivo armazenado em um Amazon S3 bucket. Você pode escolher entre um formato CSV básico, um formato CSV que inclui campos/atributos personalizados em um cabeçalho e um formato JSON que inclui campos personalizados. O formato padrão é CSV básico.

Veja a seguir informações sobre cada formato de documento compatível e como Amazon Kendra trata cada formato ao indexar documentos.

Formato do documento Tratado como Como o documento é tratado Estrutura original
Formato de documento portátil (PDF) HTML Convertido em HTML e, em seguida, o conteúdo é extraído. Não estruturado
HyperText Linguagem de marcação (HTML) HTML As tags HTML são filtradas para extrair conteúdo. O conteúdo deve estar entre as tags principais de HTML início e fim (<HTML>content</HTML>). Semiestruturado
Linguagem de marcação extensível (XML) XML As tags HTML são filtradas para extrair conteúdo. Semiestruturado
Transformação de linguagem de folha de estilo extensível (XSLT) XSLT As tags HTML são filtradas para extrair conteúdo. Semiestruturado
MarkDown (Maryland) Texto sem formatação O conteúdo é extraído com a MarkDown sintaxe incluída. Semiestruturado
CSV (valores separados por vírgula) CSV Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento. Estruturado para arquivos de perguntas frequentes, caso contrário, semiestruturado
Microsoft Excel (XLS e XLSX) XLS e XLSX Conteúdo extraído de cada célula, com um único arquivo tratado como um único resultado de documento. Semiestruturado
JavaScript Notação de objeto (JSON) Texto sem formatação O conteúdo é extraído com a sintaxe MarkDown incluída. Semiestruturado
Formato Rich Text (RTF) RTF A sintaxe RTF é filtrada para extrair conteúdo. Semiestruturado
Microsoft PowerPoint (PPT) PPT, PPTX Somente o conteúdo de texto é extraído dos PowerPoint slides para pesquisa. Imagens e outros conteúdos não são extraídos. Não estruturado
Microsoft Word DOC, DOCX Somente o conteúdo de texto é extraído das páginas do Word para pesquisa. Imagens e outros conteúdos não são extraídos. Não estruturado
Texto sem formatação (TXT) TXT Todo o texto no documento de texto é extraído. Não estruturado

Atributos ou campos do documento

Um documento tem atributos ou campos associados a ele. Os campos de um documento são as propriedades de um documento ou o que está contido na estrutura de um documento. Por exemplo, cada um dos documentos pode conter título, corpo do texto e autor. Você também pode adicionar campos personalizados para documentos específicos. Por exemplo, se o índice pesquisar documentos fiscais, você poderá especificar um campo personalizado para o tipo de documento fiscal, como W-2, 1099 e assim por diante.

Antes de usar um campo de documento em uma consulta, ele deve ser mapeado para um campo de índice. Por exemplo, o campo do título pode ser mapeado para o campo_document_title. Para obter mais informações, consulte Mapear campos. Para adicionar um novo campo, você deve criar um campo de índice para o qual mapear o campo. Você cria campos de índice usando o console ou usando a UpdateIndexAPI.

Você pode usar os campos do documento para filtrar respostas e criar resultados de pesquisa facetados. Por exemplo, você pode filtrar uma resposta para retornar somente uma versão específica de um documento ou filtrar pesquisas para retornar somente documentos fiscais do tipo 1099 que correspondam ao termo de pesquisa. Para obter mais informações, consulte Filtrar e pesquisar por facetas.

Você também pode usar os campos do documento para ajustar manualmente a resposta da consulta. Por exemplo, você pode optar por aumentar a importância do campo do título para aumentar o peso Amazon Kendra atribuído ao campo ao determinar quais documentos devem ser retornados na resposta. Para obter mais informações, consulte Ajustar a relevância da pesquisa.

Se você estiver adicionando um documento diretamente a um índice, especifique os campos no parâmetro de entrada do documento para a BatchPutDocumentAPI. Você especifica os valores do campo personalizado em uma matriz de DocumentAttributeobjetos. Se você estiver usando uma fonte de dados, o método usado para adicionar os campos do documento dependerá da fonte de dados. Para obter mais informações, consulte Mapear campos de fonte de dados.

Usando campos de documentos Amazon Kendra reservados ou comuns

Com a UpdateIndex API, você pode criar campos reservados ou comuns usando DocumentMetadataConfigurationUpdates e especificando o nome do campo de índice Amazon Kendra reservado para mapear para seu atributo de documento/nome de campo equivalente. Você também pode criar campos personalizados. Se você usa um conector de fonte de dados, a maioria inclui mapeamentos de campo que mapeiam os campos do documento da fonte de dados para campos de Amazon Kendra índice. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados.

Você pode configurar o objeto Search para definir um campo como exibível, facetável, pesquisável e classificável. Configure o objeto Relevance para definir a ordem de classificação, a duração do aumento ou o período de tempo de um campo a ser aplicado ao aumento, à atualização, ao valor de importância e aos valores de importância mapeados para valores de campo específicos. Se usar o console, defina as configurações de pesquisa de um campo selecionando a opção de faceta no menu de navegação. Para definir o ajuste de relevância, selecione a opção de pesquisar o índice no menu de navegação, insira uma consulta e use as opções do painel lateral para ajustar a relevância da pesquisa. Você não pode alterar o tipo de campo depois de criar o campo.

Amazon Kendra tem os seguintes campos de documento reservados ou comuns que você pode usar:

  • _authors: uma lista de um ou mais autores responsáveis pelo conteúdo do documento.

  • _category: uma categoria que coloca um documento em um grupo específico.

  • _created_at: a data e a hora no formato ISO 8601 em que o documento foi criado. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _data_source_id: o identificador da fonte de dados que contém o documento.

  • _document_body: o conteúdo do documento de trabalho.

  • _document_id: o identificador exclusivo de cada documento.

  • _document_title: o título do documento.

  • _excerpt_page_number: o número da página em um arquivo PDF em que o trecho do documento aparece. Se o índice foi criado antes de 8 de setembro de 2020, você deve reindexar os documentos antes de poder usar esse atributo.

  • _faq_id: se for um documento do tipo pergunta e resposta (Perguntas frequentes), um identificador exclusivo para as Perguntas frequentes.

  • _file_type: o tipo de arquivo do documento, como pdf ou doc.

  • _last_updated_at: a data e a hora no formato ISO 8601 em que o documento foi atualizado pela última vez. Por exemplo, 2012-03-25T12:30:10+01:00 é o formato de data e hora ISO 8601 para 25 de março de 2012 às 12h30 (mais 10 segundos) no horário da Europa Central.

  • _source_uri: o URI em que o documento está disponível. Por exemplo, o URI do documento no site da empresa.

  • _version: um identificador para a versão específica de um documento.

  • _view_count: o número de vezes que o documento foi visualizado.

  • _language_code(String): o código de um idioma que se aplica ao documento. O padrão é inglês se você não especificar um idioma. Para obter mais informações sobre os idiomas suportados, incluindo os códigos, consulte Adicionar documentos em outros idiomas além do inglês.

Para campos personalizados, você cria esses campos usando DocumentMetadataConfigurationUpdates com a API UpdateIndex, assim como faz ao criar um campo reservado ou comum. Você deve definir o tipo de dados apropriado para o campo personalizado. Se usar o console, atualize os campos selecionando a fonte de dados, a ação de edição e, em seguida, prosseguindo para a seção de mapeamentos de campo para configurar a fonte de dados. Algumas fontes de dados não oferecem suporte à adição de novos campos ou campos personalizados. Você não pode alterar o tipo de campo depois de criar o campo.

Estes são os tipos que podem ser definidos em campos personalizados:

  • Data

  • Número

  • String

  • Lista de strings

Se você adicionou documentos ao índice usando a BatchPutDocumentAPI, Attributes lista os campos/atributos dos seus documentos e cria campos usando o objeto. DocumentAttribute

Para documentos indexados de uma fonte de Amazon S3 dados, você cria campos usando um arquivo de metadados JSON que inclui as informações dos campos.

Ao usar um banco de dados compatível como fonte de dados, poderá configurae as campos usando a opção de mapeamentos de campo.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.