Orígenes de datos e ingestión - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Orígenes de datos e ingestión

Los registros se agregan a los grupos de características mediante la ingestión. Según el caso de uso que desee, los registros ingeridos pueden mantenerse dentro del grupo de características o no. Esto depende de la configuración de almacenamiento, si su grupo de características utiliza el almacenamiento en línea o sin conexión. El almacenamiento sin conexión se utiliza como base de datos histórica, que se suele utilizar para la exploración de datos, el entrenamiento de modelos de machine learning (ML) y la inferencia por lotes. El almacenamiento en línea se usa como una búsqueda de registros en tiempo real, que normalmente se emplea para atender modelos de ML. Para obtener más información sobre los conceptos y la ingestión del almacén de características, consulte Conceptos del almacén de características.

Existen varias formas de llevar tus datos a Amazon SageMaker Feature Store. El almacén de características ofrece una única llamada a la API para la ingesta de datos denominada PutRecord que le permite ingerir datos en lotes o desde orígenes de transmisión. Puede utilizar Amazon SageMaker Data Wrangler para diseñar funciones y, a continuación, incorporarlas a su tienda de funciones. También puede utilizar Amazon EMR para la ingesta de datos por lotes a través de un conector Spark.

En los siguientes temas analizaremos las diferencias.

Ingesta de transmisiones

Puede utilizar orígenes de transmisión como Kafka o Kinesis como origen de datos, de donde se extraen los registros, e introducir directamente los registros al almacenamiento en línea para el entrenamiento, la inferencia o la creación de características. El grupo de características puede ingerir los registros con una llamada sincrónica a la API PutRecord. Dado que se trata de una llamada sincrónica a la API, es posible introducir pequeños lotes de actualizaciones en una única llamada a la API. Esto le permite mantener una alta actualización de los valores de las características y publicar valores en cuanto se detecte una actualización. También se denominan características de transmisión.

Data Wrangler con el almacén de características

Data Wrangler es una función de Studio Classic que proporciona una end-to-end solución para importar, preparar, transformar, caracterizar y analizar datos. Data Wrangler le permite diseñar sus características e incorporarlas a un grupo de características del almacenamiento sin conexión o en línea.

Las siguientes instrucciones exportan un bloc de notas de Jupyter que contiene todo el código fuente necesario para crear un grupo de funciones de Feature Store que añada las funciones de Data Wrangler a una tienda en línea o fuera de línea.

Las instrucciones para exportar el flujo de datos de Data Wrangler a Feature Store de la consola varían en función de si lo has activado Amazon SageMaker Studio o lo has hecho de forma predeterminada. Amazon SageMaker Studio Clásico

  1. Abre la consola de Studio siguiendo las instrucciones que se indican en. Lanza Amazon SageMaker Studio

  2. Selecciona Datos en el panel izquierdo para ampliar la lista desplegable.

  3. En la lista desplegable, selecciona Data Wrangler.

  4. Si ya tiene una instancia de Amazon SageMaker Canvas en ejecución, elija Open Canvas.

    Si no tiene ninguna instancia de SageMaker Canvas en ejecución, elija Ejecutar en Canvas.

  5. En la consola de SageMaker Canvas, selecciona Data Wrangler en el panel de navegación izquierdo.

  6. Elija Flujos de datos para ver sus flujos de datos.

  7. Seleccione + para ampliar la lista desplegable.

  8. Seleccione Exportar flujo de datos para ampliar la lista desplegable.

  9. Selecciona Guardar en SageMaker Feature Store (mediante un JupyterLab bloc de notas).

  10. En Exportar flujo de datos como bloc de notas, selecciona una de las siguientes opciones:

    • Descargue una copia local para descargar el flujo de datos a su máquina local.

    • Exporte a la ubicación S3 para descargar el flujo de datos a una ubicación de Amazon Simple Storage Service e introduzca la ubicación de Amazon S3 o seleccione Browse para buscar su ubicación de Amazon S3.

  11. Seleccione Exportar.

Una vez creado el grupo de características, también puede seleccionar y unir datos de varios grupos de características para crear nuevas características diseñadas en Data Wrangler y, a continuación, exportar el conjunto de datos a un bucket de Amazon S3.

Para obtener más información sobre cómo exportar a Feature Store, consulte Exportar a SageMaker Feature Store.