Filtrar e selecionar dados para rotulagem - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Filtrar e selecionar dados para rotulagem

Você pode usar o SageMaker console da Amazon para selecionar uma parte do seu conjunto de dados para rotulagem. Os dados devem ser armazenados em um bucket do Amazon S3. Você tem três opções:

  • Usar o conjunto de dados completo.

  • Escolher uma amostra selecionada aleatoriamente do conjunto de dados.

  • Especificar um subconjunto do conjunto de dados usando uma consulta.

As opções a seguir estão disponíveis na seção Trabalhos de etiquetagem do SageMakerconsole depois de selecionar Criar trabalho de etiquetagem. Para saber como criar um trabalho de rotulagem no console, consulte Conceitos básicos. Para configurar o conjunto de dados que você usa para rotulagem, na seção Visão geral do trabalho, selecione Configuração adicional.

Usar o conjunto de dados completo

Ao escolher usar o Conjunto de dados completo, você deve fornecer um arquivo de manifesto para seus objetos de dados. Você pode fornecer o caminho do bucket do Amazon S3 que contém o arquivo de manifesto ou usar o SageMaker console para criar o arquivo. Para saber como criar um arquivo manifesto usando o console, consulte Configuração automatizada de dados.

Escolher uma amostra aleatória

Quando desejar rotular um subconjunto aleatório dos seus dados, selecione Random sample (Amostra aleatória). O conjunto de dados é armazenado no bucket do Amazon S3 especificado no campo Local de entrada do conjunto de dados.

Depois de especificar a porcentagem de objetos de dados que você deseja incluir na amostra, escolha Criar subconjunto. SageMaker seleciona aleatoriamente os objetos de dados para seu trabalho de etiquetagem. Depois que os objetos forem selecionados, escolha Use esse subconjunto.

SageMaker cria um arquivo de manifesto para os objetos de dados selecionados. Ele também modifica o valor no campo Local de entrada do conjunto de dados para apontar para o novo arquivo manifesto.

Especificar um subconjunto

Você pode especificar um subconjunto dos seus objetos de dados usando uma consulta ao Amazon S3 SELECT nos nomes de arquivos de objetos.

A instrução SELECT da consulta SQL é definida para você. Você fornece a cláusula WHERE para especificar quais objetos de dados deve ser retornado.

Para obter mais informações sobre a instrução SELECT do Amazon S3, consulte Selecionar conteúdo de objetos.

Escolha Criar subconjunto para iniciar a seleção e, em seguida, escolha Use esse subconjunto para usar os dados selecionados.

SageMaker cria um arquivo de manifesto para os objetos de dados selecionados. Ele também atualiza o valor no campo Local de entrada do conjunto de dados para apontar para o novo arquivo manifesto.