As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Armazenamento
Pergunta |
Exemplo de resposta |
---|---|
Onde os dados de treinamento serão armazenados? |
No armazenamento em nuvem (por exemplo, Amazon S3, armazenamento de arquivos, armazenamento em blocos ou armazenamento de objetos), no armazenamento local e assim por diante. |
Quais são os requisitos de armazenamento para os dados de treinamento e os artefatos do modelo (por exemplo, capacidade, durabilidade, disponibilidade)? |
Armazenamento em escala de petabytes, alta durabilidade (99,999999999% de durabilidade), alta disponibilidade e assim por diante. |
Quais são os requisitos de retenção e backup de dados para os dados de treinamento e artefatos do modelo? |
Retenção de dados por x anos, backups diários, backups externos e assim por diante. |
Quais formatos de arquivo são usados principalmente para armazenar seus conjuntos de dados de treinamento de IA (por exemplo, CSV, JSON, Parquet)? HDF5 |
Arquivos em parquet para dados estruturados e HDF5 para grandes matrizes multidimensionais e dados não estruturados, como imagens e texto. Usamos formatos especializados, como TFRecord para otimizar o carregamento de dados durante o treinamento. |
Como seus conjuntos de dados de treinamento são organizados: como arquivos individuais, em bancos de dados ou usando formatos de dados de IA especializados? |
Conjuntos de dados pequenos e médios são armazenados como arquivos Parquet individuais no armazenamento de objetos para maior flexibilidade. Grandes conjuntos de dados são armazenados em um banco de dados distribuído (Cassandra) para lidar com a escala. |
Você usa alguma técnica de compressão ou codificação de dados especificamente para dados generativos de treinamento de IA? |
Para dados tabulares, usamos técnicas de codificação de dicionário e empacotamento de bits disponíveis no Parquet. Para imagens, usamos compressão JPEG com perdas com configurações de qualidade otimizadas para nossos modelos. |
Como você lida com o controle de versão e o armazenamento de diferentes iterações de conjuntos de dados de treinamento? Que impacto isso tem nas suas necessidades gerais de armazenamento? |
Usamos um sistema de controle de versão de dados (DVC) integrado à nossa plataforma de ML. |