Use um arquivo de manifesto de entrada - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Use um arquivo de manifesto de entrada

Cada linha em um arquivo de manifesto de entrada é uma entrada contendo um objeto, ou uma referência a um objeto, para rotular. Uma entrada também pode conter rótulos de trabalhos anteriores e, para alguns tipos de trabalhos, informações adicionais.

Os dados de entrada e o arquivo de manifesto devem ser armazenados no Amazon Simple Storage Service (Amazon S3). Cada um tem requisitos específicos de armazenamento e acesso, conforme indicado a seguir:

  • O bucket do Amazon S3 que contém os dados de entrada deve estar na mesma AWS região em que você está executando o Amazon SageMaker Ground Truth. Você deve dar SageMaker à Amazon acesso aos dados armazenados no bucket do Amazon S3 para que ela possa lê-los. Para obter mais informações sobre buckets do Amazon S3, consulte Como trabalhar com buckets do Amazon S3.

  • O arquivo de manifesto deve estar na mesma AWS região dos arquivos de dados, mas não precisa estar no mesmo local dos arquivos de dados. Ele pode ser armazenado em qualquer bucket do Amazon S3 que esteja acessível à função AWS Identity and Access Management (IAM) que você atribuiu à Ground Truth ao criar o trabalho de rotulagem.

O manifesto é um arquivo codificado em UTF-8 em que cada linha é um objeto JSON completo e válido. Cada linha é delimitada por uma quebra de linha padrão, \n ou \r\n. Como cada linha deve ser um objeto JSON válido, não é possível ter caracteres de quebra de linha sem escape. Para obter mais informações sobre o formato de dados, consulte Linhas JSON.

Cada objeto JSON no arquivo de manifesto não pode ter mais de 100.000 caracteres. Nenhum atributo único dentro de um objeto pode ter mais de 20.000 caracteres. Os nomes de atributo não podem começar com $ (cifrão).

Cada objeto JSON no arquivo manifesto deve conter uma das seguintes chaves: source-ref ou source. O valor das chaves é interpretado da seguinte forma:

  • source-ref – a origem do objeto é o objeto do Amazon S3 especificado no valor. Use esse valor quando o objeto for um objeto binário, como uma imagem.

  • source – a origem do objeto é o valor. Use esse valor quando o objeto for um valor de texto.

Veja a seguir um exemplo de arquivo de manifesto para arquivos armazenados em um bucket do Amazon S3:

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

Use a chave source-ref para arquivos de imagem para caixa delimitadora, classificação de imagem (rótulo único e múltiplo) e segmentação de semântica e videoclipes para trabalhos de rotulagem de classificação de vídeo. Os trabalhos de rotulagem de nuvem de pontos 3D e quadros de vídeo também usam a source-ref chave, mas esses trabalhos de rotulagem exigem informações adicionais no arquivo manifesto de entrada. Para obter mais informações, consulte Dados de entrada da nuvem de pontos 3D e Dados de entrada do quadro de vídeo.

Veja a seguir um exemplo de arquivo manifesto com os dados de entrada armazenados no manifesto:

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

Use a chave source para trabalhos de rotulagem de classificação de texto de rótulo único e múltiplo e reconhecimento de entidades nomeadas.

Você pode incluir outros pares de chave/valor no arquivo manifesto. Esses pares são transmitidos inalterados ao arquivo de saída. Isso é útil quando você deseja transmitir informações entre seus aplicativos. Para ter mais informações, consulte Dados de saída.