Parámetros necesarios Parámetros opcionales

Creación de un trabajo de AutoML de clasificación de texto mediante la API

Las siguientes instrucciones muestran cómo crear un trabajo de Amazon SageMaker Autopilot como experimento piloto para tipos de problemas de clasificación de textos mediante SageMaker API Reference.

nota

Las tareas como la clasificación de textos e imágenes, la previsión de series temporales y el afinamiento de modelos de lenguaje grandes están disponibles exclusivamente en la versión 2 de la API de REST de AutoML. Si su idioma preferido es Python, puede consultar directamente el MLV2 objeto Auto del SDK de Amazon SageMaker Python. AWS SDK para Python (Boto3)

Los usuarios que prefieran la comodidad de una interfaz de usuario pueden usar Amazon SageMaker Canvas para acceder a modelos previamente entrenados y modelos básicos de IA generativa, o crear modelos personalizados adaptados a textos específicos, clasificación de imágenes, necesidades de previsión o IA generativa.

Puede crear un experimento de clasificación de texto con piloto automático mediante programación llamando a la acción de la CreateAutoMLJobV2API en cualquier idioma compatible con Amazon SageMaker Autopilot o el. AWS CLI

Para obtener información sobre cómo se traduce esta acción de API en una función en el lenguaje que usted prefiera, consulte la sección Véase también de CreateAutoMLJobV2 y seleccione un SDK. Como ejemplo, para los usuarios de Python, consulte la sintaxis de solicitud completa de create_auto_ml_job_v2 en AWS SDK para Python (Boto3).

Lo que sigue es una colección de parámetros de solicitud de entrada obligatorios y opcionales para la acción de API CreateAutoMLJobV2 utilizada en la clasificación de textos.

Parámetros necesarios

Al llamar a CreateAutoMLJobV2 para crear un experimento de Piloto automático para la clasificación de textos, debe proporcionar los siguientes valores:

Un AutoMLJobName para especificar el nombre del trabajo.
Al menos un AutoMLJobChannel en AutoMLJobInputDataConfig para especificar el origen de datos.
Un AutoMLProblemTypeConfig del tipo TextClassificationJobConfig.
Una OutputDataConfig para especificar la ruta de salida de Amazon S3 a fin de almacenar los artefactos de su trabajo de AutoML.
Un RoleArn para especificar el ARN del rol utilizado para acceder a sus datos.

Todos los demás parámetros son opcionales.

Parámetros opcionales

En las siguientes secciones, se proporcionan detalles sobre algunos parámetros opcionales que puede transferir al trabajo AutoML de clasificación de textos.

Puede proporcionar su propio conjunto de datos de validación y una tasa de división de datos personalizada, o puede dejar que Piloto automático divida el conjunto de datos automáticamente.

Cada AutoMLJobChannelobjeto (consulte el parámetro obligatorio Automático MLJob InputDataConfig) tiene unaChannelType, que se puede configurar en validation valores que especifican cómo se utilizarán los datos al crear un modelo de aprendizaje automático. training

Debe proporcionar al menos un origen de datos y un máximo de dos: uno para los datos de entrenamiento y otro para los datos de validación. La forma de dividir los datos en conjuntos de datos de entrenamiento y validación depende de si tiene uno o dos orígenes de datos.

La forma de dividir los datos en conjuntos de datos de entrenamiento y validación depende de si tiene uno o dos orígenes de datos.

Si solo tiene un origen de datos, el ChannelType se establece en training de forma predeterminada y debe tener este valor.
- Si el valor ValidationFraction en AutoMLDataSplitConfig no está establecido, el 20 % (0,2) de los datos de este origen se utiliza para la validación de forma predeterminada.
- Si la ValidationFraction se establece en un valor entre 0 y 1, el conjunto de datos se divide en función del valor especificado, donde el valor especifica la fracción del conjunto de datos utilizada para la validación.
Si tiene dos orígenes de datos, el ChannelType de uno de los objetos de AutoMLJobChannel debe establecerse en training, el valor predeterminado. El ChannelType del otro origen de datos debe estar establecido en validation. Los dos orígenes de datos deben tener el mismo formato, CSV o Parquet, y el mismo esquema. En este caso, no debe establecer el valor de ValidationFraction, ya que todos los datos de cada origen se utilizan para el entrenamiento o la validación. Si se configura este valor, se producirá un error.

Para permitir la implementación automática del mejor candidato modelo para un trabajo de AutoML, incluya un ModelDeployConfig en la solicitud de trabajo de AutoML. Esto permitirá implementar el mejor modelo en un punto final de SageMaker IA. A continuación, se muestran las configuraciones disponibles para la personalización.

Para permitir que Piloto automático genere el nombre del punto de conexión, configure AutoGenerateEndpointName en True.
Si desea proporcionar su propio nombre para el punto de conexión, configure AutoGenerateEndpointName to False and provide a name of your choice in EndpointName.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Informe de rendimiento del modelo

Formato de conjuntos de datos y métrica objetivo