Almacenamiento - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacenamiento

Pregunta

Ejemplo de respuesta

¿Dónde se almacenarán los datos de entrenamiento?

En el almacenamiento en la nube (por ejemplo, Amazon S3, almacenamiento de archivos, almacenamiento en bloques o almacenamiento de objetos), en el almacenamiento local, etc.

¿Cuáles son los requisitos de almacenamiento de los datos de entrenamiento y los artefactos del modelo (por ejemplo, capacidad, durabilidad, disponibilidad)?

Almacenamiento a escala de petabytes, alta durabilidad (99,99999% de durabilidad), alta disponibilidad, etc.

¿Cuáles son los requisitos de retención y respaldo de datos para los datos de entrenamiento y los artefactos del modelo?

Retención de datos durante x años, copias de seguridad diarias, copias de seguridad externas, etc.

¿Qué formatos de archivo se utilizan principalmente para almacenar tus conjuntos de datos de entrenamiento de IA (por ejemplo, CSV, JSON, HDF5 Parquet)?

Archivos tipo parquet para datos estructurados y HDF5 para matrices multidimensionales de gran tamaño y datos no estructurados, como imágenes y texto. Utilizamos formatos especializados, por ejemplo, TFRecord para optimizar la carga de datos durante el entrenamiento.

¿Cómo se organizan sus conjuntos de datos de entrenamiento: como archivos individuales, en bases de datos o utilizando formatos de datos de IA especializados?

Los conjuntos de datos pequeños y medianos se almacenan como archivos Parquet individuales en el almacenamiento de objetos para mayor flexibilidad. Los conjuntos de datos grandes se almacenan en una base de datos distribuida (Cassandra) para gestionar la escalabilidad.

¿Utilizas alguna técnica de compresión o codificación de datos específica para generar datos de entrenamiento con IA?

Para los datos tabulares, utilizamos técnicas de codificación de diccionario y empaquetado de bits que están disponibles en Parquet. Para las imágenes, utilizamos la compresión JPEG con pérdidas con ajustes de calidad optimizados para nuestros modelos.

¿Cómo se gestiona el control de versiones y el almacenamiento de las diferentes iteraciones de los conjuntos de datos de entrenamiento? ¿Qué impacto tiene esto en sus necesidades generales de almacenamiento?

Usamos un sistema de control de versiones de datos (DVC) que está integrado con nuestra plataforma de aprendizaje automático.