Notas de uso
Cuando utilice CREATE MODEL, tenga en cuenta lo siguiente:
La instrucción CREATE MODEL funciona en modo asíncrono y devuelve los resultados una vez exportados los datos de formación a Amazon S3. Los pasos restantes de formación en Amazon SageMaker se producen en segundo plano. Mientras la formación está en curso, la función de inferencia correspondiente está visible, pero no se puede ejecutar. Puede consultar STV_ML_MODEL_INFO para ver el estado de la formación.
La formación puede durar hasta 90 minutos en segundo plano de manera predeterminada en el modelo Auto y puede extenderse. Para cancelar la formación, simplemente ejecute el comando DROP MODEL.
El clúster de Amazon Redshift que se utiliza a la hora de crear el modelo y el bucket de Amazon S3 que se utiliza para preparar los datos de formación y los artefactos del modelo deberán estar en la misma región de AWS.
Durante la formación de modelos, Amazon Redshift y SageMaker almacenan artefactos intermedios en el bucket de Amazon S3 proporcionado. De manera predeterminada, Amazon Redshift realiza la recopilación de elementos no utilizados al final de la operación CREATE MODEL. Amazon Redshift quita esos objetos de Amazon S3. Para retener esos artefactos en Amazon S3, establezca la opción S3_GARBAGE COLLECT OFF.
Debe utilizar al menos 500 filas de los datos de formación proporcionados en la cláusula FROM.
Solo se pueden especificar hasta 256 columnas de características (entrada) en la cláusula FROM { table_name | ( select_query ) } cuando se utiliza la instrucción CREATE MODEL.
Para AUTO ON, los tipos de columnas que puede utilizar como conjunto de formación son SMALLINT, INTEGER, BIGINT, DECIMAL, REAL, DOUBLE, BOOLEAN, CHAR, VARCHAR, DATE, TIME, TIMETZ, TIMESTAMP y TIMESTAMPTZ. Para AUTO OFF, los tipos de columnas que puede utilizar como conjunto de formación son SMALLINT, INTEGER, BIGINT, DECIMAL, REAL, DOUBLE y BOOLEAN.
No se puede utilizar DECIMAL, DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ, GEOMETRY, GEOGRAPHY, HLLSKETCH, SUPER, o VARBYTE como el tipo de columna de destino.
Para mejorar la precisión del modelo, lleve a cabo una las siguientes acciones:
Cuando especifique los datos de formación en la cláusula FROM, agregue tantas columnas relevantes en el comando CREATE MODEL como sea posible.
Utilice un valor más grande para MAX_RUNTIME y MAX_CELLS. Los valores más grandes para este parámetro aumentan el costo de la formación de un modelo.
La ejecución de la instrucción CREATE MODEL presenta los resultados tan pronto como los datos de formación se calculan y exportan al bucket de Amazon S3. Después de ese punto, se puede verificar el estado de la formación mediante el comando SHOW MODEL. Cuando un modelo que se está formando en segundo plano presenta error, se puede verificar el error con SHOW MODEL. No se puede volver a probar un modelo que presente error. Utilice DROP MODEL para quitar un modelo que presenta error y volver a crear un modelo nuevo. Para obtener más información acerca de SHOW MODEL, consulte SHOW MODEL.
El procedimiento BYOM local es compatible con el mismo tipo de modelos que Amazon Redshift ML admite para casos que no son de BYOM. Amazon Redshift es compatible con modelos XGBoost (mediante la version 1.0 o posterior de XGBoost) y KMEANS básicos sin preprocesadores y modelos XGBOOST/MLP/Linear Learner formados por Amazon SageMaker Autopilot. Admite estos últimos modelos con procesadores previos que Autopilot ha especificado y que también son compatibles con Amazon SageMaker Neo.
Si su clúster de Amazon Redshift ha habilitado el enrutamiento mejorado para su nube virtual privada (VPC), asegúrese de crear un punto de conexión de la VPC de Amazon S3 y un punto de conexión de la VPC de SageMaker para la VPC en la que se encuentra el clúster. Esto permite que el tráfico pase por la VPC entre estos servicios durante el proceso CREATE MODEL. Para obtener más información, consulte Grupos de seguridad y subredes de Amazon VPC de trabajos de SageMaker Clarify.