Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
1. Administración centrada en los datos
La gestión de datos consiste en garantizar que los datos utilizados en la formación, las pruebas y la inferencia se gestionen, protejan y validen adecuadamente. Cuando se crean modelos a escala, los datos son el principal recurso que permite un alto rendimiento del modelo.
1.1 Repositorio de datos |
Un repositorio de datos requiere la capacidad de rastrear los datos y ver su punto de origen. Cuando se agregan o eliminan datos nuevos, el repositorio de datos registra esos cambios durante la point-in-time recuperación. El repositorio de datos debe tener en cuenta cómo se rastrean y procesan los datos de las etiquetas y cómo se rastrean los artefactos de datos intermedios. |
1.2 Integración de diversas fuentes de datos |
Según la aplicación, el entrenamiento del modelo puede requerir datos de muchas fuentes. Diseñar y mantener un manifiesto que informe a los profesionales del aprendizaje automático sobre las fuentes de datos disponibles y cómo se relacionan entre sí es fundamental para crear modelos. |
1.3 Validación del esquema de datos |
Para alimentar los datos de los modelos, es importante que los datos de entrenamiento sean homogéneos. Es posible que se requieran transformaciones u otros análisis exploratorios para los datos que se almacenan en soluciones de lagos de datos, como Amazon Simple Storage Service (Amazon S3), o en almacenes de datos de documentos. |
1.4 Control de versiones y linaje de los datos |
Al entrenar modelos que puedan usarse en producción, debe poder reproducir los resultados y disponer de una forma fiable de realizar los estudios de ablación |
1.5 Flujo de trabajo de etiquetado |
En los casos en que los datos etiquetados no estén disponibles al inicio del proyecto, la creación de los datos etiquetados suele ser un paso necesario. Herramientas como Amazon SageMaker Ground Truth requieren que los datos de entrada estén estructurados adecuadamente y requieren un trabajo de etiquetado definido y probado. Se debe utilizar una plantilla de etiquetadores internos o externos. Luego, los datos deben validarse utilizando enfoques de etiquetado redundante o aprendizaje automático para identificar valores atípicos o errores en el conjunto de datos de entrenamiento. |
1.6 Almacenamiento de funciones en línea y fuera de línea |
El sistema ML tiene un almacén de funciones o un almacén centralizado para las funciones y los metadatos asociados, de modo que es posible reutilizar las funciones o las entradas del modelo. Puede crear un almacenamiento en línea o sin conexión. Utilice una tienda en línea para casos de uso de inferencias en tiempo real y de baja latencia. Use una tienda fuera de línea para el entrenamiento y la inferencia por lotes. |