Almacenamiento sin conexión - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacenamiento sin conexión

El almacenamiento sin conexión se utiliza para los datos históricos cuando no es necesario recuperarlos en menos de un segundo. Por lo general, se usa para la exploración de datos, el entrenamiento de modelos y la inferencia por lotes.

Al habilitar los almacenamiento sin conexión y en línea para su grupo de características, ambos se sincronizan para evitar discrepancias entre los datos de entrenamiento y los de entrega. Tenga en cuenta que, actualmente, un grupo de características del almacenamiento en línea con el tipo de almacenamiento InMemory habilitado no admite el grupo de características correspondiente en el almacenamiento sin conexión (no se puede replicar de en línea a sin conexión). Para obtener más información sobre el servicio de modelos de aprendizaje automático en Amazon SageMaker Feature Store, consulteAlmacenamiento en línea.

El almacenamiento sin conexión contiene las siguientes opciones de TableFormat. Para obtener información sobre el contenido de la tienda offline, consulta OfflineStoreConfigla Amazon SageMaker API Reference.

Formato de tabla de Glue

El formato de Glue (predeterminado) es un formato de tabla de tipo Hive estándar para AWS Glue. Con AWS Glueél, puede descubrir, preparar, mover e integrar datos de múltiples fuentes. También incluye herramientas adicionales de productividad y operaciones de datos para la creación, la ejecución de trabajos y la implementación de flujos de trabajo empresariales. Para obtener más información AWS Glue, consulte ¿Qué es AWS Glue? .

Formato de tabla de Iceberg

El formato de Iceberg (recomendado) es un formato de tabla abierto para tablas analíticas muy grandes. Con Iceberg, puede compactar los archivos de datos pequeños en un menor número de archivos grandes en la partición, lo que se traduce en consultas considerablemente más rápidas. Esta operación de compactación es simultánea y no afecta a las operaciones de lectura y escritura en curso en el grupo de características. Para obtener más información sobre la optimización de las tablas Iceberg, consulte Amazon Athena AWS Lake Formationy las guías del usuario.

Iceberg administra grandes colecciones de archivos como tablas y es compatible con las modernas operaciones analíticas de lago de datos. Si elige Iceberg esta opción al crear nuevos grupos de características, Amazon SageMaker Feature Store crea las Iceberg tablas con el formato de archivo Parquet y las registra con AWS Glue Data Catalog. Para obtener más información sobre los formatos de Iceberg tabla, consulte Uso de tablas de Apache Iceberg.

importante

Tenga en cuenta que, en el caso de los grupo de características en formato de tabla de Iceberg, debe especificar String como el tipo de característica para la hora del evento. Si especifica cualquier otro tipo, no podrá crear el grupo de características correctamente.