Data lakes dos flywheels - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Data lakes dos flywheels

Quando você cria um flywheel, o Amazon Comprehend cria um data lake em sua conta para conter todos os dados do flywheel, como os dados de entrada e saída necessários para as versões do modelo.

O Amazon Comprehend cria o data lake no local do Amazon S3 que você especifica ao criar o flywheels. Você pode especificar o local como um bucket do Amazon S3 ou como uma nova pasta em um bucket do Amazon S3.

Estrutura de pastas do data lake

Quando o Amazon Comprehend cria o data lake, ele configura a seguinte estrutura de pastas no local do Amazon S3.

Atenção

O Amazon Comprehend gerencia a organização e o conteúdo das pastas do data lake. Sempre use as operações da API do Amazon Comprehend para modificar as pastas do data lake, ou seu flywheel pode não funcionar corretamente.

Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

Para visualizar a avaliação de treinamento de uma versão do modelo, execute estas etapas:

  1. Abra a pasta chamada Conjunto de dados do modelo no nível raiz do data lake. Essa pasta contém uma subpasta para cada versão do modelo.

  2. Abra a pasta da versão do modelo de interesse.

  3. Abra a pasta nomeada ModelStatspara ver as estatísticas do modelo.

Gerenciamento do data lake

O Amazon Comprehend realiza as seguintes tarefas para gerenciar o data lake em seu nome:

  • Define a estrutura de pastas do data lake e ingere os conjuntos de dados nas pastas apropriadas.

  • Gerencia os documentos de entrada (como arquivos de texto e arquivos de anotações) necessários para treinar o modelo.

  • Gerencia os dados de saída de treinamento e avaliação associados a cada versão do modelo.

  • Gerencia a criptografia dos arquivos armazenados no data lake.

O Amazon Comprehend executa todas as operações de criação e atualização de dados para o data lake. Você retém o acesso total aos dados no data lake. Por exemplo: .

  • Você tem acesso total ao conteúdo do data lake.

  • O data lake permanece disponível depois que você exclui o .flywheel

  • Você pode configurar os logs de acesso ao bucket do Amazon S3 que contém o data lake.

  • Você pode fornecer chaves de criptografia para os dados. Você as especifica ao criar um flywheel.

Recomendamos seguir estas práticas recomendadas:

  • Não adicione suas próprias pastas ou arquivos ao data lake manualmente. Não modifique nem exclua nenhum arquivo no data lake.

  • Sempre use as operações de criação e atualização do Amazon Comprehend para adicionar ou modificar dados no data lake. Por exemplo, use CreateDataset para fornecer dados de treinamento ou teste e StartFlywheelIteration para gerar dados de avaliação para versões do modelo.

  • A estrutura do data lake pode evoluir com o tempo. Não crie scripts ou programas downstream que dependam explicitamente da estrutura do data lake.

  • Ao fornecer uma localização de data lake para o flywheel, recomendamos criar um prefixo comum para dados relacionados a todos os flywheels ou usar um prefixo diferente para cada flywheel. Não recomendamos usar o caminho completo do data lake de um flywheel como prefixo para outro flywheel.