As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar um trabalho de rotulagem (API)
Para criar um trabalho de etiquetagem usando a SageMaker API da Amazon, você usa a CreateLabelingJob
operação. Para obter instruções específicas sobre como criar um trabalho de rotulagem para um tipo de tarefa integrada, consulte a página do tipo de tarefa em questão. Para saber como criar um trabalho de rotulagem de streaming, que é um trabalho de rotulagem que é executado perpetuamente, consulte Crie um trabalho de rotulagem de streaming.
Para usar a operação CreateLabelingJob
, você precisa do seguinte:
-
Um modelo de tarefas do operador (
UiTemplateS3Uri
) ou um ARN de interface do usuário de tarefa humana (HumanTaskUiArn
) no Amazon S3.-
Para trabalhos de nuvem de pontos 3D, trabalhos de monitoramento, de detecção de objetos de vídeo e trabalhos NER, use o ARN listado em
HumanTaskUiArn
para seu tipo de tarefa. -
Se estiver usando um tipo de tarefa integrada que não seja uma tarefa de nuvem de pontos 3D, você poderá adicionar as instruções do operador a um dos modelos pré-criados e salvar o modelo (usando uma extensão.html ou .liquid) no bucket do S3. Encontre os modelos de pré-compilação na página do tipo de tarefa em questão.
-
Se estiver usando um fluxo de trabalho de rotulagem personalizado, você poderá criar um modelo personalizado e salvar o modelo no bucket do S3. Para saber como criar um modelo de operador personalizado, consulte Um modelo de tarefas do operador personalizado.. Para obter elementos HTML personalizados que você pode usar para personalizar o modelo, consulte Referência do Crowd HTML Elements. Para obter um repositório de modelos de demonstração para uma variedade de tarefas de rotulagem, consulte Amazon SageMaker Ground Truth Sample Task UIs
.
-
-
Um arquivo manifesto de entrada que especifique os dados de entrada no Amazon S3. Especifique o local do arquivo manifesto de entrada no
ManifestS3Uri
. Para obter informações sobre como criar um manifesto de entrada, consulte Dados de entrada. Se você criar um trabalho de rotulagem de streaming, isso é opcional. Para saber como criar um trabalho de rotulagem de streaming, consulte Crie um trabalho de rotulagem de streaming. -
Um bucket do Amazon S3 para armazenar seus dados de saída. Você especifica este bucket e, opcionalmente, um prefixo em
S3OutputPath
. -
Um arquivo de configuração de categoria de rótulo. O nome de cada categoria de rótulo deve ser exclusivo. Especifique o local desse arquivo no Amazon S3 usando o parâmetro
LabelCategoryConfigS3Uri
. As categorias de rótulo e formato desse arquivo dependem do tipo de tarefa que você usa:-
Para classificação de imagens e classificação de texto (rótulo único e múltiplos), você deve especificar pelo menos duas categorias de rótulos. Para todos os outros tipos de tarefas, o número mínimo de categorias de rótulos exigido é 01.
-
Para tarefas de reconhecimento de entidades nomeadas, você deve fornecer instruções de trabalhadores nesse arquivo. Para obter detalhes e um exemplo, consulte Forneça instruções de trabalho em um Arquivo de configuração de categoria de rótulo.
-
Para o tipo de tarefa de nuvem de pontos 3D e quadros de vídeo, use o formato em Arquivo de configuração de categorias de rotulagem com referência de atributos de categorias e quadros de rótulo.
-
Para todos os outros tipos de tarefa integradas e tarefas personalizadas, o arquivo de configuração da categoria de rótulo deve ser um arquivo JSON no seguinte formato. Identifique os rótulos que você deseja usar substituindo
label_1
,label_2
,...
,label_n
pelas categorias de rótulos.{ "document-version": "2018-11-28", "labels": [ {"label": "
label_1
"}, {"label": "label_2
"}, ... {"label": "label_n
"} ] }
-
-
Uma função AWS Identity and Access Management (IAM) com a política AmazonSageMakerGroundTruthExecution
gerenciada do IAM anexada e com permissões para acessar seus buckets do S3. Especifique essa função em RoleArn
. Para saber mais sobre essa política, consulte Use políticas gerenciadas do IAM com o Ground Truth. Se você precisar de permissões mais granulares, consulte Atribua permissões do IAM para usar o Ground Truth.Se o nome do bucket de entrada ou saída não contiver
sagemaker
, você poderá anexar uma política à função passada para a operaçãoCreateLabelingJob
semelhante à seguinte.{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::
my_input_bucket
/*" ] }, { "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::my_output_bucket
/*" ] } ] } -
Um Nome de recurso da Amazon (ARN) da função de pré e pós-anotação do AWS Lambda (ou consolidação de anotação) para processar seus dados de entrada e saída.
-
As funções Lambda são predefinidas em cada AWS região para tipos de tarefas incorporados. Para encontrar a pré-anotação Lambda ARN para sua região, consulte. PreHumanTaskLambdaArn Para encontrar o ARN Lambda de consolidação de anotações para sua região, consulte. AnnotationConsolidationLambdaArn
-
Para fluxos de trabalho de rotulagem personalizada, é necessário fornecer um ARN do Lambda de pré e pós-anotação. Para saber como criar essas funções do Lambda, consulte Processando dados em um fluxo de trabalho de rotulagem personalizado com AWS Lambda.
-
-
Um ARN de equipe de trabalho que você especifica em
WorkteamArn
. Você recebe um ARN de equipe de trabalho ao assinar uma força de trabalho de um fornecedor ou criar uma equipe de trabalho privada. Se você estiver criando um trabalho de rotulagem para um quadro de vídeo ou tipo de tarefa de nuvem de pontos, não poderá usar a Amazon Mechanical Turk força de trabalho. Para todos os outros tipos de tarefas, para usar a força de trabalho do Mechanical Turk, use o seguinte ARN.
Substitua pela AWS região que você está usando para criar o trabalho de etiquetagem.region
arn:aws:sagemaker:
region
:394669845002:workteam/public-crowd/defaultSe você usar a força de trabalho Amazon Mechanical Turk, use o parâmetro
ContentClassifiers
emDataAttributes
deInputConfig
para declarar que o seu conteúdo não contém informações de identificação pessoal e nem conteúdo adulto.O Ground Truth exige que seus dados de entrada estejam livres de informações de identificação pessoal (PII) quando você usa o Mechanical Turk. Se você usa o Mechanical Turk e não especifica que seus dados de entrada estão livres de PII usando o sinalizador
FreeOfPersonallyIdentifiableInformation
, seu trabalho de rotulagem irá falhar. Use aFreeOfAdultContent
bandeira para declarar que seus dados de entrada estão livres de conteúdo adulto. SageMaker A IA pode restringir os funcionários do Amazon Mechanical Turk que podem visualizar sua tarefa se ela contiver conteúdo adulto.Para saber mais sobre equipes de trabalho e forças de trabalho, consulte Forças de trabalho.
-
Se você usa a força de trabalho do Mechanical Turk, deve especificar o preço que pagará aos trabalhadores pela execução de uma única tarefa em
PublicWorkforceTaskPrice
. -
Para configurar a tarefa, você deve fornecer uma descrição da tarefa e um título usando
TaskDescription
eTaskTitle
, respectivamente. Opcionalmente, você pode fornecer limites de tempo que controlam por quanto tempo os operadores precisam trabalhar em uma tarefa individual (TaskTimeLimitInSeconds
) e por quanto tempo as tarefas permanecem no portal do operador, disponível para os operadores (TaskAvailabilityLifetimeInSeconds
). -
(Opcional) Para alguns tipos de tarefa, é possível que vários operadores rotulem um único objeto de dados inserindo um número superior a um para o parâmetro
NumberOfHumanWorkersPerDataObject
. Para obter mais informações sobre consolidação de anotações, consulte Consolidação de anotações. -
(Opcional) Para criar um trabalho automatizado de rotulagem de dados, especifique um dos ARNs listados LabelingJobAlgorithmSpecificationArnem
LabelingJobAlgorithmsConfig
. Esse ARN identifica o algoritmo usado na tarefa automatizada de rotulagem de dados. O tipo de tarefa associado a esse ARN deve corresponder ao tipo de tarefa doPreHumanTaskLambdaArn
eAnnotationConsolidationLambdaArn
que você especificar. A rotulagem automatizada de dados é compatível com os seguintes tipos de tarefas: classificação de imagens, caixa delimitadora, segmentação de semântica e classificação de texto. O número mínimo de objetos permitidos para a rotulagem de dados automatizada é de 1.250, mas é altamente recomendável fornecer um mínimo de 5.000 objetos. Para saber mais sobre trabalhos de rotulagem de dados automatizados, consulteAutomatize a rotulagem de dados. -
(Opcional) Você pode fornecer
StoppingConditions
, que faz com que o trabalho de rotulagem seja interrompido se uma das condições for atendida. Você pode usar condições de interrupção para controlar o custo do trabalho de rotulagem.
Exemplos
Os exemplos de código a seguir demonstram como criar um trabalho de rotulagem usando CreateLabelingJob
. Para obter exemplos adicionais, recomendamos que você use um dos cadernos Jupyter do Ground Truth Labeling Jobs na seção SageMaker Exemplos de uma SageMaker instância de notebook. Para saber como usar um exemplo de notebook dos exemplos de SageMaker IA, consulteCadernos de exemplo de acesso. Você também pode ver esses blocos de notas de exemplo GitHub no repositório de exemplos de SageMaker IA
Para obter mais informações sobre essa operação, consulte CreateLabelingJob. Para obter informações sobre como usar outro idioma específico SDKs, consulte Consulte também no CreateLabelingJobs
tópico.