Armazenamento - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Armazenamento

Pergunta

Exemplo de resposta

Onde os dados de treinamento serão armazenados?

No armazenamento em nuvem (por exemplo, Amazon S3, armazenamento de arquivos, armazenamento em blocos ou armazenamento de objetos), no armazenamento local e assim por diante.

Quais são os requisitos de armazenamento para os dados de treinamento e os artefatos do modelo (por exemplo, capacidade, durabilidade, disponibilidade)?

Armazenamento em escala de petabytes, alta durabilidade (99,999999999% de durabilidade), alta disponibilidade e assim por diante.

Quais são os requisitos de retenção e backup de dados para os dados de treinamento e artefatos do modelo?

Retenção de dados por x anos, backups diários, backups externos e assim por diante.

Quais formatos de arquivo são usados principalmente para armazenar seus conjuntos de dados de treinamento de IA (por exemplo, CSV, JSON, Parquet)? HDF5

Arquivos em parquet para dados estruturados e HDF5 para grandes matrizes multidimensionais e dados não estruturados, como imagens e texto. Usamos formatos especializados, como TFRecord para otimizar o carregamento de dados durante o treinamento.

Como seus conjuntos de dados de treinamento são organizados: como arquivos individuais, em bancos de dados ou usando formatos de dados de IA especializados?

Conjuntos de dados pequenos e médios são armazenados como arquivos Parquet individuais no armazenamento de objetos para maior flexibilidade. Grandes conjuntos de dados são armazenados em um banco de dados distribuído (Cassandra) para lidar com a escala.

Você usa alguma técnica de compressão ou codificação de dados especificamente para dados generativos de treinamento de IA?

Para dados tabulares, usamos técnicas de codificação de dicionário e empacotamento de bits disponíveis no Parquet. Para imagens, usamos compressão JPEG com perdas com configurações de qualidade otimizadas para nossos modelos.

Como você lida com o controle de versão e o armazenamento de diferentes iterações de conjuntos de dados de treinamento? Que impacto isso tem nas suas necessidades gerais de armazenamento?

Usamos um sistema de controle de versão de dados (DVC) integrado à nossa plataforma de ML.