Preparando seus conjuntos de dados - Amazon Rekognition

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparando seus conjuntos de dados

A criação de um adaptador exige que você forneça ao Rekognition dois conjuntos de dados, um conjunto de dados de treinamento e um conjunto de dados de teste. Cada conjunto de dados é composto por dois elementos: imagens e anotações/rótulos. As seções a seguir explicam para que rótulos e imagens são usados e como eles se juntam para criar conjuntos de dados.

Imagens

Você precisará treinar um adaptador em amostras representativas de suas imagens. Ao selecionar imagens para treinamento, tente incluir pelo menos algumas imagens que demonstrem a resposta esperada para cada um dos rótulos que você está segmentando com seu adaptador.

Para criar um conjunto de dados de treinamento, você precisa fornecer um dos dois tipos de imagem a seguir:

  • Imagens com previsões de falsos positivos. Por exemplo, quando um modelo básico prevê que uma imagem tem álcool, mas isso não acontece.

  • Imagens com previsões de falsos negativos. Por exemplo, quando um modelo básico prevê que uma imagem não tem álcool, mas tem.

Para criar um conjunto de dados balanceado, é recomendável fornecer um dos dois tipos de imagem a seguir:

  • Imagens com previsões verdadeiramente positivas. Por exemplo, quando um modelo básico prediz corretamente que uma imagem tem álcool. É recomendável fornecer essas imagens se você fornecer imagens de falso positivo.

  • Imagens com previsões de Falso negativo. Por exemplo, quando um modelo básico prediz corretamente que uma imagem não tem álcool. É recomendável fornecer essas imagens se você fornecer imagens em falsos negativos.

Rótulos

Um rótulo se refere a qualquer um dos seguintes: objetos, eventos, conceitos ou atividades. Para moderação de conteúdo, um rótulo é uma instância de conteúdo impróprio, indesejado ou ofensivo.

No contexto da criação de um adaptador treinando o modelo básico do Rekognition, quando um rótulo é atribuído a uma imagem, ele é chamado de anotação. Ao treinar um adaptador com o Rekognition Console, você usará o console para adicionar anotações às suas imagens escolhendo uma etiqueta e marcando as imagens que correspondam à etiqueta. Por meio desse processo, o modelo aprende a identificar elementos de suas imagens com base no rótulo atribuído. Esse processo de vinculação permite que o modelo se concentre no conteúdo mais relevante quando um adaptador é criado, resultando em maior precisão na análise de imagens.

Como alternativa, você pode fornecer arquivos de manifesto, que contêm informações sobre imagens e as anotações que as acompanham.

Conjuntos de dados de treinamento e teste

O conjunto de dados de treinamento é a base para ajustar o modelo e criar um adaptador personalizado. Você deve fornecer um conjunto de dados de treinamento anotado para o modelo aprender. O modelo aprende com esse conjunto de dados para melhorar seu desempenho no tipo de imagem que você fornece.

Para melhorar a precisão, você deve criar seu conjunto de dados de treinamento por annotation/labeling imagens. É possível fazer isso de duas maneiras:

  • Atribuição manual de rótulos: você pode usar o Rekognition Console para criar um conjunto de dados de treinamento fazendo o upload das imagens que você deseja que seu conjunto de dados contenha e, em seguida, atribuir manualmente rótulos a essas imagens.

  • Arquivo de manifesto — Você pode usar um arquivo de manifesto para treinar seu adaptador. O arquivo de manifesto contém informações sobre as anotações verdadeiras de suas imagens de treinamento e teste, bem como a localização de suas imagens de treinamento. Você pode fornecer o arquivo de manifesto ao treinar um adaptador usando o APIs Rekognition ou ao usar o Console. AWS

O conjunto de dados de teste é usado para avaliar o desempenho do adaptador após o treinamento. Para garantir uma avaliação confiável, o conjunto de dados de teste é criado usando uma fatia do conjunto de dados de treinamento original que o modelo nunca viu antes. Esse processo garante que o desempenho do adaptador seja avaliado com novos dados, criando medidas e métricas precisas. Para obter melhorias de precisão ideais, consulte Práticas recomendadas para adaptadores de treinamento.