Interfaz de entrada y salida para el algoritmo -Tabular AutoGluon

Modo de enfoque

Interfaz de entrada y salida para el algoritmo -Tabular AutoGluon - Amazon SageMaker AI

La potenciación de gradientes funciona en los datos tabulares, con las filas que representan observaciones, una columna que representa la variable de destino o la etiqueta, y las columnas restantes que representan las características.

La implementación de SageMaker IA de AutoGluon -Tabular admite CSV para el entrenamiento y la inferencia:

Para el entrenamiento ContentType, las entradas válidas deben ser text/csv.
Para la inferencia ContentType, las entradas válidas deben ser text/csv.

nota

Para la capacitación de CSV, el algoritmo asume la variable de destino en la primera columna y ese CSV no dispone de un registro de encabezado.

Para la inferencia de CSV, el algoritmo asume que la entrada de CSV no dispone de la columna de etiqueta.

Formato de entrada para los datos de entrenamiento, los datos de validación y las características categóricas

Ten cuidado con el formato de los datos de entrenamiento para introducirlos en el modelo -Tabular. AutoGluon Debe proporcionar la ruta a un bucket de Amazon S3 que contenga los datos de entrenamiento y de validación. También puede incluir una lista de características categóricas. Utilice los canales training y validation para proporcionar los datos de entrada. o utilice solo el canal training si lo prefiere.

Uso de ambos canales (training y validation)

Puede proporcionar los datos de entrada mediante dos rutas S3, una para el canal training y otra para el canal validation. Cada ruta de S3 puede ser un prefijo de S3 o una ruta de S3 completa que apunte a un archivo CSV específico. Las variables de destino deben estar en la primera columna del archivo CSV. Las variables predictoras (características) deben estar en las columnas restantes. Los datos de validación se utilizan para calcular una puntuación de validación al final de cada iteración de potenciación. Hay una interrupción anticipada cuando la puntuación de validación deja de mejorar.

Si los predictores incluyen características categóricas, puede proporcionar un archivo JSON con el nombre categorical_index.json en la misma ubicación que el archivo de datos de entrenamiento. Si proporciona un archivo JSON para las características categóricas, el canal training debe apuntar a un prefijo S3, y no a un archivo CSV específico. Este archivo debe contener un diccionario de Python donde la clave sea la cadena "cat_index_list" y el valor sea una lista de enteros únicos. Cada número entero de la lista de valores debe indicar el índice de columnas de las características categóricas correspondientes en el archivo CSV de datos de entrenamiento. Cada valor debe ser un entero positivo (mayor de cero, ya que cero representa el valor objetivo), menor que el Int32.MaxValue (2147483647) y menor que el número total de columnas. Solo debe haber un archivo JSON de índice categórico.

Uso del canal training exclusivamente

También puede proporcionar sus datos de entrada mediante una única ruta S3 para el canal training. Esta ruta de S3 debe apuntar a un directorio con un subdirectorio denominado training/ que contenga un archivo CSV. Si lo desea, puede incluir otro subdirectorio en la misma ubicación, denominado validation/, que también tenga un archivo CSV. Si no se proporcionan los datos de validación, se toma una muestra aleatoria del 20 % de los datos de entrenamiento para que ejerzan como datos de validación. Si los predictores contienen características categóricas, puede proporcionar un archivo JSON con el nombre categorical_index.json en la misma ubicación que los subdirectorios de datos.

nota

En el modo de entrada de entrenamiento de CSV, la memoria total disponible para el algoritmo (el recuento de instancias multiplicado por la memoria disponible en InstanceType) debe poder contener el conjunto de datos de entrenamiento.

SageMaker AI AutoGluon -Tabular usa el autogluon.tabular.TabularPredictor módulo para serializar o deserializar el modelo, lo que se puede usar para guardar o cargar el modelo.

Para usar un modelo entrenado con AI -Tabular con el marco SageMaker AutoGluon AutoGluon

Utilice el siguiente código de Python:


import tarfile
from autogluon.tabular import TabularPredictor

t = tarfile.open('model.tar.gz', 'r:gz')
t.extractall()

model = TabularPredictor.load(model_file_path)

# prediction with test data
# dtest should be a pandas DataFrame with column names feature_0, feature_1, ..., feature_d
pred = model.predict(dtest)

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo usar -Tabular AutoGluon

Cómo funciona

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Interfaz de entrada y salida para el algoritmo -Tabular AutoGluon

nota

nota

Para usar un modelo entrenado con AI -Tabular con el marco SageMaker AutoGluon AutoGluon

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?