Storage - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Storage

Domanda

Example response

Dove verranno archiviati i dati di allenamento?

Nell'archiviazione cloud (ad esempio, Amazon S3, archiviazione di file, archiviazione a blocchi o archiviazione di oggetti), nell'archiviazione locale e così via.

Quali sono i requisiti di archiviazione per i dati di addestramento e gli artefatti del modello (ad esempio, capacità, durabilità, disponibilità)?

Storage su scala petabyte, elevata durabilità (99,99999% di durabilità), alta disponibilità e così via.

Quali sono i requisiti di conservazione e backup dei dati per i dati di addestramento e gli artefatti del modello?

Conservazione dei dati per x anni, backup giornalieri, backup fuori sede e così via.

Quali formati di file vengono utilizzati principalmente per archiviare i set di dati di addestramento AI (ad esempio, CSV, JSON, Parquet,)? HDF5

File Parquet per dati strutturati e HDF5 per array multidimensionali di grandi dimensioni e dati non strutturati come immagini e testo. Utilizziamo formati specializzati, ad esempio per ottimizzare il caricamento dei dati durante l' TFRecord allenamento.

Come sono organizzati i set di dati di formazione: come singoli file, in database o utilizzando formati di dati AI specializzati?

I set di dati di piccole e medie dimensioni vengono archiviati come singoli file Parquet nello storage a oggetti per garantire la massima flessibilità. I set di dati di grandi dimensioni vengono archiviati in un database distribuito (Cassandra) per gestire la scalabilità.

Utilizzate tecniche di compressione o codifica dei dati specifiche per i dati di addestramento generativo dell'intelligenza artificiale?

Per i dati tabulari, utilizziamo tecniche di codifica dei dizionari e di bit-packing disponibili in Parquet. Per le immagini, utilizziamo la compressione JPEG con perdita di dati con impostazioni di qualità ottimizzate per i nostri modelli.

Come gestite il controllo delle versioni e l'archiviazione di diverse iterazioni di set di dati di addestramento? Che impatto ha questo sulle vostre esigenze complessive di storage?

Utilizziamo un sistema di versione dei dati (DVC) integrato con la nostra piattaforma ML.