Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Exportar
En el flujo de Data Wrangler, puede exportar algunas o todas las transformaciones que haya realizado a sus canalizaciones de procesamiento de datos.
Un flujo de Data Wrangler es la serie de pasos de preparación de datos que ha realizado en sus datos. En la preparación de los datos, se llevan a cabo una o más transformaciones en los datos. Cada transformación se realiza mediante un paso de transformación. El flujo tiene una serie de nodos que representan la importación de los datos y las transformaciones que se han hecho. Para ver un ejemplo de nodos, consulte la siguiente imagen.
La imagen anterior muestra un flujo de Data Wrangler con dos nodos. El nodo Origen: muestreado muestra el origen de datos desde el que ha importado los datos. El nodo Tipos de datos indica que Data Wrangler ha realizado una transformación para convertir el conjunto de datos en un formato utilizable.
Cada transformación que agregue al flujo de Data Wrangler aparece como un nodo adicional. Para obtener información acerca de las transformaciones que puede agregar, consulte Datos de transformación. La siguiente imagen muestra un flujo de Data Wrangler que tiene un nodo Rename-column para cambiar el nombre de una columna de un conjunto de datos.
Puede exportar las transformaciones de datos a lo siguiente:
-
Amazon S3
-
Canalizaciones
-
Amazon SageMaker Feature Store
-
Código Python
importante
Te recomendamos que utilices la política IAM AmazonSageMakerFullAccess
gestionada para conceder AWS permiso para usar Data Wrangler. Si no utilizas la política gestionada, puedes utilizar una IAM política que dé a Data Wrangler acceso a un bucket de Amazon S3. Para obtener más información acerca de la política, consulte Seguridad y permisos.
Cuando exporta su flujo de datos, se le cobra el AWS recursos que utilizas. Puede utilizar etiquetas de asignación de costos para organizar y administrar los costos de esos recursos. Usted crea estas etiquetas para su perfil de usuario y Data Wrangler las aplica automáticamente a los recursos utilizados para exportar el flujo de datos. Para obtener más información, consulte Uso de etiquetas de asignación de costes.
Exportar a Amazon S3.
Data Wrangler le permite exportar sus datos a una ubicación dentro de un bucket de Amazon S3. Puede especificar la ubicación mediante uno de los siguientes métodos:
-
Nodo de destino: donde Data Wrangler almacena los datos después de haberlos procesado.
-
Exportar a: exporta los datos resultantes de una transformación a Amazon S3.
-
Exportación de datos: en el caso de conjuntos de datos pequeños, puede exportar rápidamente los datos que ha transformado.
Utilice las siguientes secciones para obtener más información sobre cada uno de estos métodos.
Cuando exporta el flujo de datos a un bucket de Amazon S3, Data Wrangler almacena una copia del archivo de flujo en el bucket de S3. El archivo de flujo se almacena con el prefijo data_wrangler_flows. Si utiliza el bucket de Amazon S3 predeterminado para almacenar los archivos de flujo, se utiliza la siguiente convención de nomenclatura: sagemaker-
. Por ejemplo, si su número de cuenta es 111122223333 y utiliza Studio Classic en us-east-1, los conjuntos de datos importados se almacenan en. region
-account
number
sagemaker-us-east-1-111122223333
En este ejemplo, los archivos .flow creados en us-east-1 se almacenan en s3://sagemaker-
. region
-account
number
/data_wrangler_flows/
Exporte a Pipelines
Si quieres crear e implementar flujos de trabajo de aprendizaje automático (ML) a gran escala, puedes usar Pipelines para crear flujos de trabajo que gestionen e SageMaker implementen trabajos. Con Pipelines, puedes crear flujos de trabajo que gestionen la preparación de SageMaker datos, la formación de modelos y los trabajos de implementación de modelos. Puedes usar los algoritmos propios que SageMaker ofrece Pipelines. Para obtener más información sobre Pipelines, consulta Pipelines. SageMaker
Cuando exporta uno o más pasos de su flujo de datos a Pipelines, Data Wrangler crea un cuaderno de Jupyter que puede usar para definir, instanciar, ejecutar y administrar un canalización.
Uso de un cuaderno de Jupyter para crear una canalización
Usa el siguiente procedimiento para crear un cuaderno de Jupyter para exportar tu flujo de Data Wrangler a Pipelines.
Utilice el siguiente procedimiento para generar un cuaderno de Jupyter y ejecútelo para exportar el flujo de Data Wrangler a Pipelines.
-
Elija el signo + junto al nodo que desea exportar.
-
Elija Exportar a.
-
Elige Pipelines (a través de Jupyter Notebook).
-
Ejecute el cuaderno de Jupyter.
Puede utilizar el cuaderno de Jupyter que produce Data Wrangler para definir una canalización. La canalización incluye los pasos de procesamiento de datos definidos por el flujo de Data Wrangler.
Puede agregar pasos adicionales a la canalización si agrega pasos a la lista steps
que aparece en el siguiente código del cuaderno:
pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )
Exportación a un punto de conexión de inferencia
Utilice su flujo de Data Wrangler para procesar los datos en el momento de la inferencia creando una canalización de inferencia en SageMaker serie a partir de su flujo de Data Wrangler. Una canalización de inferencia es una serie de pasos que dan como resultado que un modelo entrenado haga predicciones a partir de nuevos datos. Una canalización de inferencia en serie dentro de Data Wrangler transforma los datos sin procesar y los proporciona al modelo de machine learning para que realice una predicción. El proceso de inferencia se crea, ejecuta y administra desde un cuaderno de Jupyter en Studio Classic. Para obtener más información acerca de cómo acceder al cuaderno, consulte Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia.
En el cuaderno, puede entrenar un modelo de machine learning o especificar uno que ya haya entrenado. Puede usar Amazon SageMaker Autopilot o XGBoost entrenar el modelo con los datos que ha transformado en su flujo de Data Wrangler.
La canalización permite realizar inferencias por lotes o en tiempo real. También puede añadir el flujo de Data Wrangler a Model Registry. SageMaker Para obtener más información acerca de los modelos de alojamiento, consulte Alojar varios modelos en un contenedor detrás de un punto de conexión.
importante
No puede exportar el flujo de Data Wrangler a un punto de conexión de inferencia si tiene las siguientes transformaciones:
-
Join
-
Concatenar
-
Agrupar por
Si tiene que usar las transformaciones anteriores para preparar los datos, use el siguiente procedimiento.
Para preparar los datos para la inferencia con transformaciones no compatibles
-
Cree un flujo de Data Wrangler.
-
Aplique las transformaciones anteriores que no son compatibles.
-
Exporte los datos a un bucket de Amazon S3.
-
Cree un flujo de Data Wrangler independiente.
-
Importe los datos que haya exportado del flujo anterior.
-
Aplique el resto de las transformaciones.
-
Cree una canalización de inferencia en serie con el cuaderno de Jupyter que le proporcionamos.
Para obtener información sobre la exportación de datos a un bucket de Amazon S3, consulte Exportar a Amazon S3.. Para obtener información sobre cómo abrir el cuaderno de Jupyter utilizado para crear la canalización de inferencia en serie, consulte Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia.
Data Wrangler hace caso omiso de las transformaciones que eliminan datos en el momento de la inferencia. Por ejemplo, Data Wrangler hace caso omiso de la transformación Gestión de valores que faltan si utiliza la configuración Eliminar ausentes.
Si ha modificado las transformaciones de todo el conjunto de datos, las transformaciones se aplicarán a la canalización de inferencia. Por ejemplo, si empleó el valor de la mediana para imputar los valores ausentes, el valor de la mediana resultante del reajuste de la transformada se aplica a las solicitudes de inferencia. Puede reajustar las transformaciones del flujo de Data Wrangler cuando utilice el cuaderno de Jupyter o cuando exporte los datos a una canalización de inferencia. Para obtener información acerca del reajuste de las transformaciones, consulte Reajuste de las transformaciones a todo el conjunto de datos y exportación.
La canalización de inferencia en serie admite los siguientes tipos de datos para las cadenas de entrada y salida. Cada tipo de datos tiene un conjunto de requisitos.
Tipos de datos admitidos
-
text/csv
— el tipo de datos de las cadenas CSV-
La cadena no puede tener un encabezado.
-
Las características utilizadas para la canalización de inferencia deben estar en el mismo orden que las características del conjunto de datos de entrenamiento.
-
Debe haber un delimitador de coma entre las características.
-
Los registros deben estar delimitados por un carácter de nueva línea.
El siguiente es un ejemplo de una CSV cadena con un formato válido que puede proporcionar en una solicitud de inferencia.
abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
-
-
application/json
— el tipo de datos de las cadenas JSON-
Las características utilizadas para la canalización de inferencia deben estar en el mismo orden que las características del conjunto de datos de entrenamiento.
-
Los datos deben tener un esquema específico. El esquema se define como un objeto
instances
único que tiene un conjunto defeatures
. Cada objetofeatures
representa una observación.
El siguiente es un ejemplo de una JSON cadena con un formato válido que puede proporcionar en una solicitud de inferencia.
{ "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }
-
Uso de un cuaderno de Jupyter para crear un punto de conexión de inferencia
Utilice el siguiente procedimiento para exportar el flujo de Data Wrangler y crear una canalización de inferencia.
Para crear una canalización de inferencia con un cuaderno de Jupyter, haga lo siguiente.
-
Elija el signo + junto al nodo que desea exportar.
-
Elija Exportar a.
-
Elija SageMaker Inference Pipeline (a través de Jupyter Notebook).
-
Ejecute el cuaderno de Jupyter.
Al ejecutar el cuaderno de Jupyter, se crea un artefacto de flujo de inferencia. Un artefacto de flujo de inferencia es un archivo de flujo de Data Wrangler con metadatos adicionales que se utiliza para crear la canalización de inferencia en serie. El nodo que exporta incluye todas las transformaciones de los nodos anteriores.
importante
Data Wrangler necesita el artefacto del flujo de inferencia para ejecutar la canalización de inferencia. No puede usar su propio archivo de flujo como artefacto. Debe crearlo mediante el procedimiento anterior.
Exportación a código Python
Para exportar todos los pasos del flujo de datos a un archivo de Python que pueda integrar manualmente en cualquier flujo de trabajo de procesamiento de datos, utilice el siguiente procedimiento.
Utilice el siguiente procedimiento para generar un cuaderno de Jupyter y ejecútelo para exportar el flujo de Data Wrangler a Python.
-
Elija el signo + junto al nodo que desea exportar.
-
Elija Exportar a.
-
Elija Código Python.
-
Ejecute el cuaderno de Jupyter.
Es posible que tenga que configurar el script de Python para que se ejecute en su canalización. Por ejemplo, si estás ejecutando un entorno Spark, asegúrate de ejecutar el script desde un entorno que tenga permiso de acceso AWS recursos.
Exportar a Amazon SageMaker Feature Store
Puedes usar Data Wrangler para exportar las funciones que has creado a Amazon SageMaker Feature Store. Una característica es una columna de su conjunto de datos. El almacén de características es un almacén centralizado de las características y sus metadatos asociados. Puede usar el almacén de características para crear, compartir y administrar datos seleccionados para el desarrollo de machine learning (ML). Los almacenes centralizados hacen que los datos sean más fáciles de localizar y reutilizables. Para obtener más información sobre Feature Store, consulta Amazon SageMaker Feature Store.
Un concepto fundamental del almacén de características es el grupo de características. Un grupo de características es una colección de características, sus registros (observaciones) y los metadatos asociados. Es similar a una tabla de una base de datos.
Puede utilizar Data Wrangler para realizar una de las siguientes acciones:
-
Actualice un grupo de características existente con nuevos registros. Un registro es una observación en el conjunto de datos.
-
Cree un nuevo grupo de características a partir de un nodo en su flujo de Data Wrangler. Data Wrangler agrega las observaciones de sus conjuntos de datos como registros en su grupo de características.
Si va a actualizar un grupo de características existente, el esquema de su conjunto de datos debe coincidir con el esquema del grupo de características. Todos los registros del grupo de características se reemplazan por las observaciones del conjunto de datos.
Puede usar un cuaderno de Jupyter o un nodo de destino para actualizar su grupo de características con las observaciones del conjunto de datos.
Si tus grupos de características con el formato de tabla Iceberg tienen una clave de cifrado de tienda offline personalizada, asegúrate de conceder los permisos IAM que estás utilizando para el trabajo de Amazon SageMaker Processing para usarla. Como mínimo, debe otorgarle permisos para cifrar los datos que escribe en Amazon S3. Para conceder los permisos, dale al IAM rol la posibilidad de usar el GenerateDataKey. Para obtener más información sobre cómo conceder permisos de uso a los IAM roles AWS KMS claves, consulte https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html
El cuaderno utiliza estas configuraciones para crear un grupo de características, procesar los datos a escala y, a continuación, incorporar los datos procesados a los almacenes de características en línea y sin conexión. Para obtener más información, consulte Data Sources and Ingestion.
Reajuste de las transformaciones a todo el conjunto de datos y exportación
Al importar datos, Data Wrangler utiliza una muestra de los datos para aplicar las codificaciones. De forma predeterminada, Data Wrangler usa las primeras 50 000 filas como muestra, pero puede importar todo el conjunto de datos o usar un método de muestreo diferente. Para obtener más información, consulte Importación.
Las siguientes transformaciones utilizan sus datos para crear una columna en el conjunto de datos:
Si empleó el muestreo para importar los datos, las transformaciones anteriores solo usan los datos de la muestra para crear la columna. Es posible que la transformación no haya utilizado todos los datos pertinentes. Por ejemplo, si usa la transformación Codificación categórica, podría haber una categoría en todo el conjunto de datos que no esté presente en la muestra.
Puede usar un nodo de destino o un cuaderno de Jupyter para reajustar las transformaciones a todo el conjunto de datos. Cuando Data Wrangler exporta las transformaciones del flujo, crea una tarea de SageMaker procesamiento. Cuando finaliza el trabajo de procesamiento, Data Wrangler guarda los siguientes archivos en la ubicación predeterminada de Amazon S3 o en una ubicación S3 que usted especifique:
-
El archivo de flujo de Data Wrangler que especifica las transformaciones que se reajustan al conjunto de datos
-
El conjunto de datos al que se le han aplicado las transformaciones de reajuste
Puede abrir un archivo de flujo de Data Wrangler en Data Wrangler y aplicar las transformaciones a un conjunto de datos diferente. Por ejemplo, si ha aplicado las transformaciones a un conjunto de datos de entrenamiento, puede abrir y usar el archivo de flujo de Data Wrangler para aplicar las transformaciones a un conjunto de datos utilizado para la inferencia.
Para obtener información sobre el uso de nodos de destino para reajustar las transformaciones y exportar, consulte las siguientes páginas:
Utilice el siguiente procedimiento para ejecutar un cuaderno de Jupyter para reajustar las transformaciones y exportar los datos.
Para ejecutar un cuaderno de Jupyter, reajustar las transformaciones y exportar el flujo de Data Wrangler, haga lo siguiente.
-
Elija el signo + junto al nodo que desea exportar.
-
Elija Exportar a.
-
Elija la ubicación a la que va a exportar los datos.
-
En el objeto
refit_trained_params
, establezcarefit
enTrue
. -
Para el campo
output_flow
, especifique el nombre del archivo de flujo de salida con las transformaciones de reajuste. -
Ejecute el cuaderno de Jupyter.
Creación de una programación para procesar automáticamente los datos nuevos
Si procesa datos periódicamente, puede crear una programación para ejecutar el trabajo de procesamiento de forma automática. Por ejemplo, puede crear una programación que ejecute un trabajo de procesamiento automáticamente cuando obtenga datos nuevos. Para obtener más información acerca de estos trabajos de procesamiento, consulte Exportar a Amazon S3. y Exportar a Amazon SageMaker Feature Store.
Al crear un trabajo, debe especificar un IAM rol que tenga permisos para crear el trabajo. De forma predeterminada, el IAM rol que se utiliza para acceder a Data Wrangler es el. SageMakerExecutionRole
Los siguientes permisos permiten a Data Wrangler acceder a las tareas de procesamiento EventBridge y EventBridge ejecutarlas:
-
Añada lo siguiente AWS Política gestionada para la función de ejecución de Amazon SageMaker Studio Classic que proporciona a Data Wrangler permisos para usar: EventBridge
arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess
Para obtener más información sobre la política, consulte AWS políticas gestionadas para EventBridge.
-
Añada la siguiente política al IAM rol que especifique al crear un trabajo en Data Wrangler:
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:
Region
:AWS-account-id
:pipeline/data-wrangler-*" } ] }Si utiliza el IAM rol predeterminado, añada la política anterior al rol de ejecución de Amazon SageMaker Studio Classic.
Añada la siguiente política de confianza al rol EventBridge para poder asumirlo.
{ "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
importante
Al crear una programación, Data Wrangler crea una eventRule
entrada. EventBridge Se le cobrará tanto por las reglas de eventos que cree como por las instancias que utilice para ejecutar el trabajo de procesamiento.
Para obtener información sobre EventBridge los precios, consulta los EventBridge precios de Amazon
Utilice uno de los métodos siguientes para definir una programación:
-
nota
Data Wrangler no admite las siguientes expresiones:
-
LW#
-
Abreviaturas para días
-
Abreviaturas para días
-
-
Recurrente: establece un intervalo de una hora o un día para ejecutar el trabajo.
-
Hora específica: establece días y horas concretos para ejecutar el trabajo.
En las siguientes secciones se presentan procedimientos para crear trabajos.
Puede utilizar Amazon SageMaker Studio Classic para ver los trabajos que están programados para ejecutarse. Sus trabajos de procesamiento se ejecutan dentro de Pipelines. Cada trabajo de procesamiento tiene su propia canalización. Se ejecuta como un paso de procesamiento dentro de la canalización. Puede ver las programaciones que ha creado dentro de una canalización. Para obtener información acerca de cómo visualizar una canalización, consulte Ver una canalización.
Utilice el siguiente procedimiento para ver los trabajos que ha programado.
Para ver los trabajos que ha programado, haga lo siguiente.
-
Abre Amazon SageMaker Studio Classic.
-
Abra Pipelines
-
Vea las canalizaciones de los trabajos que ha creado.
La canalización que ejecuta el trabajo usa el nombre del trabajo como prefijo. Por ejemplo, si ha creado un trabajo denominado
housing-data-feature-enginnering
, el nombre de la canalización esdata-wrangler-housing-data-feature-engineering
. -
Elija la canalización que contiene su trabajo.
-
Vea el estado de las canalizaciones. Las canalizaciones con un Estado Correcto han ejecutado el trabajo de procesamiento correctamente.
Para detener la ejecución del trabajo de procesamiento, haga lo siguiente:
Para detener la ejecución de un trabajo de procesamiento, elimine la regla de eventos que especifica la programación. Al eliminar una regla de eventos, se detiene la ejecución de todos los trabajos asociados a la programación. Para obtener información sobre cómo eliminar una regla, consulta Cómo deshabilitar o eliminar una EventBridge regla de Amazon.
También puede detener y eliminar las canalizaciones asociadas a las programaciones. Para obtener información sobre cómo detener una canalización, consulta StopPipelineExecution. Para obtener información sobre la eliminación de una canalización, consulte DeletePipeline.