Formatos de arquivo de treinamento do classificador - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Formatos de arquivo de treinamento do classificador

Para um modelo de texto sem formatação, você pode fornecer dados de treinamento do classificador como um arquivo CSV ou como um arquivo de manifesto aumentado que você cria usando o Ground Truth. SageMaker O arquivo CSV ou arquivo de manifesto aumentado inclui o texto de cada documento de treinamento e seus rótulos associados.

Para um modelo de documento nativo, você fornece dados do classificador de treinamento como um arquivo CSV. O arquivo CSV inclui o nome do arquivo de cada documento de treinamento e seus rótulos associados. Você inclui os documentos de treinamento na pasta de entrada do Amazon S3 para a tarefa de treinamento.

Arquivos CSV

Você fornece dados de treinamento rotulados como texto codificado em UTF-8 em um arquivo CSV. Não inclua uma linha de cabeçalho. Adicionar uma linha de cabeçalho em seu arquivo pode causar erros runtime.

Para cada linha no arquivo CSV, a primeira coluna contém um ou mais rótulos de classe. Um rótulo de classe pode ser qualquer string UTF-8 válida. Recomendamos usar nomes de classe claros que não se sobreponham em significado. O nome pode incluir espaço em branco e consistir em várias palavras conectadas por sublinhados ou hífens.

Não deixe nenhum caractere de espaço antes ou depois das vírgulas que separam os valores em uma linha.

O conteúdo exato do arquivo CSV depende do modo classificador e do tipo de dados de treinamento. Para mais detalhes, consulte as seções em Modo multiclasse e Modo multirrótulo.

Arquivo de manifesto aumentado

Um arquivo de manifesto aumentado é um conjunto de dados rotulado que você cria usando o Ground Truth SageMaker . O Ground Truth é um serviço de rotulagem de dados que ajuda você ou seus funcionários a criar conjuntos de dados de treinamento para modelos de machine learning.

Para obter mais informações sobre o Ground Truth e os resultados que ele produz, consulte Use SageMaker Ground Truth to Label Data no Amazon SageMaker Developer Guide.

Os arquivos de manifesto aumentado estão no formato de linhas JSON. Nesses arquivos, cada linha é um objeto JSON completo que contém um documento de treinamento e seus rótulos associados. O conteúdo exato de cada linha depende do modo classificador. Para mais detalhes, consulte as seções em Modo multiclasse e Modo multirrótulo.

Ao fornecer seus dados de treinamento ao Amazon Comprehend, você especifica um ou mais nomes de atributos do rótulo. A quantidade de nomes de atributos que você especifica depende se seu arquivo de manifesto aumentado é a saída de uma única tarefa de rotulagem ou de uma tarefa de rotulagem em cadeia.

Se seu arquivo for a saída de uma tarefa de rotulagem única, especifique o nome do atributo de rótulo único da tarefa do Ground Truth.

Se seu arquivo for a saída de um trabalho de rotulagem em cadeia, especifique o nome de atributo de rótulo etiqueta para um ou mais trabalhos na cadeia. Cada nome de atributo de rótulo fornece as anotações de uma tarefa individual. Você pode especificar até 5 desses atributos para arquivos de manifesto aumentados a partir de tarefas de rotulagem encadeadas.

Para obter mais informações sobre trabalhos de etiquetagem em cadeia e exemplos dos resultados que eles produzem, consulte Encadeamento de trabalhos de etiquetagem no Amazon SageMaker Developer Guide.