Crear una referencia - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Crear una referencia

Los cálculos de referencia de las estadísticas y las restricciones son necesarios como norma para detectar la deriva de los datos y otros problemas de calidad de los datos. El monitor de modelos proporciona un contenedor integrado que brinda la capacidad de sugerir las restricciones automáticamente para la entrada CSV y JSON plana. Este sagemaker-model-monitor-analyzercontenedor también le proporciona una gama de capacidades de monitoreo de modelos, incluida la validación de restricciones con respecto a una línea base y la emisión de métricas de Amazon CloudWatch . Este contenedor se basa en la versión 3.3.0 de Spark y se crea con la versión 2.0.2 de Deequ. Todos los nombres de las columnas de su conjunto de datos de referencia deben cumplir con Spark. Para los nombres de las columnas, usa solo caracteres en minúscula y _ como único carácter especial.

El conjunto de datos de entrenamiento que utilizó para entrenar al modelo suele ser un buen conjunto de datos de referencia. El esquema de datos del conjunto de datos de entrenamiento y el esquema de conjunto de datos de inferencia deben coincidir exactamente (el número y el orden de las características). Tenga en cuenta que las columnas de predicción/salida son las primeras columnas del conjunto de datos de entrenamiento. A partir del conjunto de datos de entrenamiento, puedes solicitar SageMaker que te sugieran un conjunto de restricciones de referencia y generar estadísticas descriptivas para explorar los datos. Para este ejemplo, cargue el conjunto de datos de entrenamiento que se utilizó para entrenar el modelo preentrenado incluido en este ejemplo. Si ya ha almacenado el conjunto de datos de entrenamiento en Amazon S3, puede apuntar a él directamente.

Para crear una referencia a partir de un conjunto de datos de entrenamiento

Cuando tenga los datos de entrenamiento listos y almacenados en Amazon S3, inicie un trabajo de procesamiento básico con el DefaultModelMonitor.suggest_baseline(..) SDK de Amazon SageMaker Python. Esto utiliza un Contenedor prediseñado de Amazon SageMaker Model Monitor que genera estadísticas de referencia y sugiere restricciones de referencia para el conjunto de datos y las escribe en la ubicación output_s3_uri que especifique.

from sagemaker.model_monitor import DefaultModelMonitor from sagemaker.model_monitor.dataset_format import DatasetFormat my_default_monitor = DefaultModelMonitor( role=role, instance_count=1, instance_type='ml.m5.xlarge', volume_size_in_gb=20, max_runtime_in_seconds=3600, ) my_default_monitor.suggest_baseline( baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv', dataset_format=DatasetFormat.csv(header=True), output_s3_uri=baseline_results_uri, wait=True )
nota

Si proporciona los nombres de las características o columnas del conjunto de datos de entrenamiento como primera fila y configura la header=True opción como se muestra en el ejemplo de código anterior, SageMaker utilizará el nombre de la función en el archivo de restricciones y estadísticas.

Las estadísticas de referencia para el conjunto de datos están contenidas en el archivo statistics.json y las restricciones de referencia sugeridas están contenidas en el archivo constraints.json en la ubicación que especifique con output_s3_uri.

Archivos de salida para estadísticas y restricciones de conjunto de datos tabular
Nombre de archivo Descripción
statistics.json

Se espera que este archivo tenga estadísticas en columnas para cada característica en el conjunto de datos que se analiza. Para obtener más información acerca del esquema para este archivo, consulte Esquema para estadísticas (archivo statistics.json).

constraints.json

Se espera que este archivo tenga las restricciones en las características observadas. Para obtener más información acerca del esquema para este archivo, consulte Esquema para restricciones (archivo constraints.json).

El SDK de Amazon SageMaker Python proporciona funciones prácticas que se describen para generar las restricciones y las estadísticas de referencia. Pero si desea llamar al trabajo de procesamiento directamente para este fin en su lugar, debe establecer el mapa Environment como se muestra en el siguiente ejemplo:

"Environment": { "dataset_format": "{\"csv\”: { \”header\”: true}", "dataset_source": "/opt/ml/processing/sm_input", "output_path": "/opt/ml/processing/sm_output", "publish_cloudwatch_metrics": "Disabled", }