Rotulando dados de treinamento usando humanos por meio do Amazon SageMaker Ground Truth - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Rotulando dados de treinamento usando humanos por meio do Amazon SageMaker Ground Truth

Para treinar um modelo de machine learning, você precisa de um conjunto de dados rotulados grande e de alta qualidade. O Ground Truth ajuda você a criar conjuntos de dados de treinamento de alta qualidade para seus modelos de machine learning. Com o Ground Truth, você pode usar operadores do Amazon Mechanical Turk, uma empresa de fornecedores escolhida por você ou uma força de trabalho interna e privada, juntamente com o machine learning, para permitir a criação de um conjunto de dados rotulado. Você pode usar a saída de conjunto de dados rotulado do Ground Truth para treinar seus próprios modelos. Você também pode usar a saída como um conjunto de dados de treinamento para um SageMaker modelo da Amazon.

Dependendo do seu aplicativo de ML, é possível escolher entre um dos tipos de tarefas integradas do Ground Truth para que os operadores gerem tipos específicos de rótulos para os dados. Também é possível criar um fluxo de trabalho de rotulagem personalizado para fornecer sua própria interface do usuário e ferramentas aos operadores que rotulam os dados. Para saber mais sobre os tipos de tarefas integradas do Ground Truth, consulte Tipos de tarefa integrados. Para saber como criar um fluxo de trabalho de rotulagem personalizado, consulte Criar fluxos de trabalho de rotulagem personalizados.

Para automatizar a rotulagem do seu conjunto de dados de treinamento, você pode opcionalmente usar a rotulagem de dados automatizada, um processo do Ground Truth que utiliza machine learning para decidir quais dados precisam ser rotulados pelas pessoas. A rotulagem de dados automatizada pode reduzir o tempo de rotulagem e o esforço manual necessário. Para ter mais informações, consulte Automatizar a rotulagem de dados. Para criar um fluxo de trabalho de rotulagem personalizado, consulte Criar fluxos de trabalho de rotulagem personalizados.

Use ferramentas pré-criadas ou personalizadas para atribuir as tarefas de rotulagem ao seu conjunto de dados de treinamento. Um modelo de interface do usuário de rotulagem é uma página da Web que o Ground Truth utiliza para apresentar tarefas e instruções aos seus operadores. O SageMaker console fornece modelos integrados para rotular dados. Você pode usar esses modelos para começar ou pode criar suas próprias tarefas e instruções usando nossos componentes HTML 2.0. Para ter mais informações, consulte Criar fluxos de trabalho de rotulagem personalizados.

Use a força de trabalho de sua escolha para rotular seu conjunto de dados. Você pode escolher sua força de trabalho em:

  • A força de trabalho do Amazon Mechanical Turk de mais de 500.000 contratados independentes em todo o mundo.

  • Uma força de trabalho privada que você cria com os seus funcionários ou contratados para manipular dados na sua organização.

  • Uma empresa fornecedora que você pode encontrar no AWS Marketplace que é especializada em serviços de etiquetagem de dados.

Para ter mais informações, consulte Criar e gerenciar forças de trabalho.

Você armazena seus conjuntos de dados em buckets do Amazon S3. Os buckets contêm três coisas: os dados a serem rotulados, um arquivo manifesto de entrada que o Ground Truth utiliza para ler os arquivos de dados e um arquivo manifesto de saída. O arquivo de saída contém os resultados do trabalho de rotulagem. Para ter mais informações, consulte Usar dados de entrada e saída.

Os eventos de seus trabalhos de etiquetagem aparecem na Amazon CloudWatch abaixo do /aws/sagemaker/LabelingJobs grupo. CloudWatch usa o nome do trabalho de rotulagem como o nome do fluxo de registros.

Você está usando o Ground Truth pela primeira vez?

Se você estiver usando o Ground Truth pela primeira vez, convém fazer o seguinte:

  1. Leia Conceitos básicos: esta seção mostra como configurar o seu primeiro trabalho de rotulagem do Ground Truth.

  2. Explore outros tópicos: dependendo das suas necessidades, faça o seguinte:

    • Explore os tipos de tarefas integrados: use os tipos de tarefas integrados para agilizar o processo de criação de uma tarefa de etiquetagem. Para saber mais sobre os tipos de tarefas integradas do Ground Truth, consulte Tipos de tarefa integrados.

    • Gerencie sua força de trabalho de rotulagem: crie novas equipes de trabalho e gerencie sua força de trabalho existente. Para ter mais informações, consulte Criar e gerenciar forças de trabalho.

    • Saiba mais sobre trabalhos de rotulagem de streaming: crie um trabalho de rotulagem de streaming e envie novos objetos de conjunto de dados aos operadores em tempo real usando um trabalho de rotulagem em execução permanente. Os operadores recebem continuamente novos objetos de dados para rotular, desde que a tarefa de rotulagem esteja ativa e novos objetos estejam sendo enviados a ela. Para saber mais, consulte Trabalhos de etiquetagem em Ground Truth Streaming.

  3. Para saber mais sobre as operações disponíveis para automatizar as operações da Ground Truth, consulte a referência da API SageMaker de serviço.