Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
El almacenamiento sin conexión se utiliza para los datos históricos cuando no es necesario recuperarlos en menos de un segundo. Por lo general, se usa para la exploración de datos, el entrenamiento de modelos y la inferencia por lotes.
Al habilitar los almacenamiento sin conexión y en línea para su grupo de características, ambos se sincronizan para evitar discrepancias entre los datos de entrenamiento y los de entrega. Tenga en cuenta que, actualmente, un grupo de características del almacenamiento en línea con el tipo de almacenamiento InMemory
habilitado no admite el grupo de características correspondiente en el almacenamiento sin conexión (no se puede replicar de en línea a sin conexión). Para obtener más información sobre el servicio de modelos de aprendizaje automático en Amazon SageMaker Feature Store, consulteAlmacenamiento en línea.
El almacenamiento sin conexión contiene las siguientes opciones de TableFormat
. Para obtener información sobre el contenido de la tienda offline, consulta OfflineStoreConfig
la referencia de la SageMaker API de Amazon.
Formato de tabla de Glue
El formato de Glue
(predeterminado) es un formato de tabla de tipo Hive estándar para AWS Glue. Con AWS Glueél, puede descubrir, preparar, mover e integrar datos de múltiples fuentes. También incluye herramientas adicionales de productividad y operaciones de datos para la creación, la ejecución de trabajos y la implementación de flujos de trabajo empresariales. Para obtener más información al respecto AWS Glue, consulte ¿Qué es AWS Glue? .
Formato de tabla de Iceberg
El formato de Iceberg
(recomendado) es un formato de tabla abierto para tablas analíticas muy grandes. Con Iceberg
, puede compactar los archivos de datos pequeños en un menor número de archivos grandes en la partición, lo que se traduce en consultas considerablemente más rápidas. Esta operación de compactación es simultánea y no afecta a las operaciones de lectura y escritura en curso en el grupo de características. Para obtener más información sobre la optimización de las tablas de Iceberg, consulte las guías del usuario de Amazon Athena y AWS Lake Formation.
Iceberg
administra grandes colecciones de archivos como tablas y es compatible con las modernas operaciones analíticas de lago de datos. Si elige Iceberg
esta opción al crear nuevos grupos de características, Amazon SageMaker Feature Store crea las Iceberg
tablas con el formato de archivo Parquet y las registra con AWS Glue Data Catalog. Para obtener más información sobre los formatos de tabla de Iceberg
, consulte Uso de tablas de Apache Iceberg.
importante
Tenga en cuenta que, en el caso de los grupo de características en formato de tabla de Iceberg
, debe especificar String
como el tipo de característica para la hora del evento. Si especifica cualquier otro tipo, no podrá crear el grupo de características correctamente.