Funcionamiento del almacén de características Creación de un grupo de características Buscar, detectar y compartir características Inferencia en tiempo real de las características almacenadas en el almacenamiento en línea Almacenamiento sin conexión para el entrenamiento de modelos e inferencia por lotes Ingesta de datos de características Resiliencia del almacén de características

Creación, almacenamiento y uso compartido de características con el Almacén de características

El proceso de desarrollo de machine learning (ML) incluye la extracción de datos sin procesar y su transformación en características (entradas significativas para su modelo de machine learning). Luego, esas características se almacenan de forma útil para la exploración de datos, el entrenamiento de ML y la inferencia de ML. Amazon SageMaker Feature Store simplifica la forma de crear, almacenar, compartir y gestionar funciones. Esto se consigue proporcionando opciones del Almacén de características y reduciendo el trabajo repetitivo de procesamiento y selección de datos.

Entre otras cosas, con el Almacén de características puede hacer lo siguiente:

Simplificar el procesamiento, el almacenamiento, la recuperación y el uso compartido de características para el desarrollo de ML en todas las cuentas o en una organización.
Realizar un seguimiento del desarrollo del código de procesamiento de características, aplicar su procesador de características a los datos sin procesar e incorporar las características al Almacén de características de manera uniforme. Esto reduce el desfase entre el entrenamiento y el servicio, un problema común en ML, ya que la diferencia entre el rendimiento durante el entrenamiento y el servicio puede afectar a la exactitud de su modelo de ML.
Almacenar sus características y metadatos asociados en grupos de características, para que estas puedan detectarse y reutilizarse fácilmente. Los grupos de características son mutables y su esquema puede evolucionar tras su creación.
Crear grupos de características que se puedan configurar para incluir un almacenamiento en línea o sin conexión, o ambos, para administrar sus características y automatizar la forma en que se almacenan para sus tareas de ML.
- El almacenamiento en línea solo conserva los registros más recientes de sus características. Esto está diseñado principalmente para admitir predicciones en tiempo real que requieren lecturas de baja latencia de milisegundos y escrituras de alto rendimiento.
- El almacenamiento sin conexión guarda todos los registros de sus características como una base de datos histórica. Esto está destinado principalmente a la exploración de datos, el entrenamiento de modelos y las predicciones por lotes.

El siguiente diagrama muestra cómo usar el Almacén de características como parte de la canalización de ML. Una vez leídos los datos sin procesar, puede usar el Almacén de características para transformar los datos sin procesar en entidades e incorporarlos a su grupo de características. Las características se pueden transferir en flujos o lotes al almacenamiento en línea y sin conexión del grupo de características. Las características se pueden utilizar luego para la exploración de datos, el entrenamiento de modelos y la inferencia en tiempo real o por lotes.

Lugar que ocupa el Almacén de características en la canalización de machine learning.

Funcionamiento del almacén de características

En el almacén de características, las características se almacenan en una colección denominada grupo de características. Puede visualizar un grupo de características como una tabla en la que cada columna es una característica, con un identificador único para cada fila. En principio, un grupo de características se compone de características y valores específicos de cada característica. Un Record es un conjunto de valores para características que corresponden a un único RecordIdentifier. En conjunto, un FeatureGroup es un grupo de características definidas en su FeatureStore para describir un Record.

Puede usar el almacén de características en los siguientes modos:

En línea: en el modo en línea, las características se leen con lecturas de baja latencia (milisegundos) y se utilizan para realizar predicciones de alto rendimiento. Este modo requiere que un grupo de características esté almacenado en un almacenamiento en línea.
Sin conexión: en el modo sin conexión, se envían grandes flujos de datos a un almacenamiento sin conexión, que se puede utilizar para el entrenamiento y la inferencia por lotes. Este modo requiere que un grupo de características esté almacenado en un almacenamiento sin conexión. El almacenamiento sin conexión usa su bucket de S3 como almacenamiento y también puede obtener datos mediante consultas de Athena.
En línea y sin conexión: esto incluye los modos en línea y sin conexión.

Puede ingerir datos en el grupo de características en el almacén de características de dos maneras: por transmisión o por lotes. Si ingiere datos por transmisión, se envía una colección de registros al almacén de características mediante una llamada sincrónica a la API PutRecord. Esta API le permite mantener los valores de las características más recientes en el almacén de características e introducir nuevos valores de características en cuanto se detecta una actualización.

Como alternativa, el almacén de características puede procesar e ingerir datos por lotes. Por ejemplo, puede crear funciones con Amazon SageMaker Data Wrangler y exportar un bloc de notas desde Data Wrangler. El cuaderno puede ser un trabajo de SageMaker procesamiento que incorpora las funciones en lotes a un grupo de características de Feature Store. Este modo permite la ingestión por lotes en el almacenamiento sin conexión. También admite la ingestión al almacenamiento en línea si el grupo de características está configurado para su uso tanto en línea como sin conexión.

Creación de un grupo de características

Para ingerir características al almacén de características, primero debe definir el grupo de características y las definiciones de las características (nombre de la característica y tipo de datos) de todas las características que pertenecen al grupo de características. Una vez creados, los grupos de características son mutables y su esquema puede evolucionar. Los nombres de los grupos de características son únicos dentro de un y Región de AWS . Cuenta de AWS Al crear un grupo de características, también puede crear los metadatos de ese grupo. Los metadatos pueden contener una descripción breve, una configuración de almacenamiento, características para identificar cada registro y la hora del evento. Además, los metadatos pueden incluir etiquetas para almacenar información como el autor, el origen de datos, la versión, etc.

importante

Los nombres del FeatureGroup o los metadatos asociados, como la descripción o las etiquetas, no deben contener ninguna información de identificación personal (PII) ni información confidencial.

Después de crear un grupo de características en el almacén de características, otros usuarios autorizados del almacén de características pueden compartirlo y detectarlo. Los usuarios pueden explorar una lista de todos los grupos de características en el almacén de características o detectar los grupos de características existentes mediante una búsqueda por nombre del grupo de características, descripción, nombre del identificador de registro, fecha de creación y etiquetas.

Inferencia en tiempo real de las características almacenadas en el almacenamiento en línea

Con el almacén de características, puede enriquecer las características almacenadas en el almacenamiento en línea en tiempo real con datos de un origen de transmisión (datos de transmisión limpios de otra aplicación) y ofrecer las características con una latencia de pocos milisegundos para realizar inferencias en tiempo real.

También puede realizar uniones entre diferentes FeatureGroups para obtener inferencias en tiempo real si consulta dos tipos diferentes de FeatureGroups en la aplicación cliente.

Almacenamiento sin conexión para el entrenamiento de modelos e inferencia por lotes

El almacén de características proporciona almacenamiento sin conexión para los valores de las características de su bucket de S3. Los datos se almacenan en el bucket de S3 mediante un esquema de prefijo basado en la hora del evento. El almacenamiento sin conexión es un almacén solo de anexos, lo que permite al almacén de características mantener un registro histórico de todos los valores de las características. Los datos se almacenan en el almacenamiento sin conexión en formato Parquet para optimizar el almacenamiento y el acceso a las consultas.

Puede consultar, explorar y visualizar las características con Data Wrangler desde la consola. El almacén de características admite la combinación de datos para producir, entrenar, validar y probar conjuntos de datos, y le permite extraer datos en diferentes momentos.

Ingesta de datos de características

Las canalizaciones de generación de características se pueden crear para procesar lotes grandes (1 millón de filas de datos o más) o lotes pequeños, y para escribir los datos de las características en el almacenamiento en línea o sin conexión. Los orígenes de transmisión, como Amazon Managed Streaming para Apache Kafka o Amazon Kinesis, también se pueden utilizar como orígenes de datos de los que se extraen características que se envían directamente al almacenamiento en línea con fines de entrenamiento, inferencia o creación de características.

Puede enviar registros al almacén de características mediante una llamada sincrónica a la API PutRecord. Dado que se trata de una llamada sincrónica a la API, es posible introducir pequeños lotes de actualizaciones en una única llamada a la API. Esto le permite mantener una alta actualización de los valores de las características y publicar valores en cuanto se detecte una actualización. También se denominan características de transmisión.

Cuando se ingieren y actualizan los datos de las características, el almacén de características almacena los datos históricos de todas las características del almacenamiento sin conexión. Para la ingesta por lotes, puede extraer los valores de las características de su bucket de S3 o utilizar Athena para realizar consultas. También puede usar Data Wrangler para procesar y diseñar nuevas características que luego se pueden exportar a un bucket de S3 elegido para que el almacén de características pueda acceder a ellas. Para la ingesta por lotes, puede configurar un trabajo de procesamiento para ingerir datos por lotes al almacén de características, o puede extraer los valores de las características de su bucket de S3 con Athena.

Para eliminar un Record del almacenamiento en línea, utilice la llamada a la API DeleteRecord. Esto también agrega el registro eliminado al almacenamiento sin conexión.

Resiliencia del almacén de características

El Feature Store se distribuye en varias zonas de disponibilidad (AZs). Una AZ es una ubicación aislada dentro de una Región de AWS. Si algunas AZs fallan, Feature Store puede usar otras AZs. Para obtener más información al respecto AZs, consulteResiliencia en Amazon SageMaker AI.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ejecute su contenedor de procesamiento con el SDK de Python para SageMaker IA

Empieza con Amazon SageMaker Feature Store