Cómo entrenar clasificadores personalizados (consola) - Amazon Comprehend

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cómo entrenar clasificadores personalizados (consola)

Puede crear y entrenar un clasificador personalizado mediante la consola y, a continuación, utilizar el clasificador personalizado para analizar los documentos.

Para entrenar un clasificador personalizado, necesita un conjunto de documentos de entrenamiento. Etiquete estos documentos con las categorías que desee que el clasificador de documentos reconozca. Para obtener información sobre cómo preparar los documentos de entrenamiento, consulte Preparación de los datos de entrenamiento del clasificador.

Cómo crear y entrenar un modelo de clasificador de documentos
  1. Inicie sesión en la consola Amazon Comprehend AWS Management Console y ábrala en https://console.aws.amazon.com/comprehend/

  2. En el menú de la izquierda, seleccione Personalización y, a continuación, seleccione Clasificación personalizada.

  3. Seleccione Crear nuevo modelo.

  4. En Configuración del modelo, introduzca un nombre de modelo para el clasificador. El nombre debe ser único dentro de su cuenta y región actuales.

    (Opcional) Especifique un nombre de versión. El nombre debe ser único dentro de su cuenta y región actuales.

  5. Seleccione el idioma de los documentos de entrenamiento. Para conocer los idiomas que admiten los clasificadores, consulte Modelos de clasificación de entrenamiento.

  6. (Opcional) Si desea cifrar los datos del volumen de almacenamiento mientras Amazon Comprehend procesa su trabajo de entrenamiento, elija Cifrado con clasificador. A continuación, elija si desea utilizar una clave KMS asociada a su cuenta actual o una de otra cuenta.

    • Si utiliza una clave asociada a la cuenta actual, elija el ID de clave para el ID de la clave KMS.

    • Si utiliza una clave asociada a una cuenta diferente, introduzca el ARN del ID de clave que figura en el ID de la clave KMS.

    nota

    Para obtener más información sobre la creación y el uso de claves KMS y sobre el cifrado asociado, consulte AWS Key Management Service (AWS KMS).

  7. En Especificaciones de datos, elija el Tipo de modelo de entrenamiento que desee utilizar.

    • Documentos de texto sin formato: seleccione esta opción para crear un modelo de texto sin formato. Entrene el modelo con documentos de texto sin formato.

    • Documentos nativos: elija esta opción para crear un modelo de documento nativo. Entrene el modelo con documentos nativos (PDF, Word, imágenes).

  8. Elija el formato de datos de sus datos de entrenamiento. Para obtener información sobre el formato de datos, consulte Formatos de archivos de entrenamiento del clasificador.

    • Archivo CSV: elija esta opción si sus datos de entrenamiento utilizan el formato de archivo CSV.

    • Manifiesto aumentado: elija esta opción si ha utilizado Ground Truth para crear archivos de manifiesto aumentados para sus datos de entrenamiento. Este formato está disponible si ha elegido documentos de texto sin formato como tipo de modelo de entrenamiento.

  9. Elija el modo de clasificador que desee utilizar.

    • Modo de etiqueta única: elija este modo si las categorías que va a asignar a los documentos se excluyen entre sí y si está entrenando al clasificador para que asigne una etiqueta a cada documento. En la API de Amazon Comprehend, el modo de etiqueta única se conoce como “modo multiclase”.

    • Modo de etiquetas múltiples: elija este modo si se pueden aplicar varias categorías a un documento al mismo tiempo y si está entrenando al clasificador para que asigne una o más etiquetas a cada documento.

  10. Si elige el modo multietiqueta, puede seleccionar el delimitador para las etiquetas. Utilice este carácter delimitador para separar las etiquetas cuando haya varias clases en un documento de entrenamiento. El delimitador predeterminado es el carácter de barra vertical.

  11. (Opcional) Si ha elegido el manifiesto aumentado como formato de datos, puede introducir hasta cinco archivos de manifiesto aumentado. Cada archivo de manifiesto aumentado contiene un conjunto de datos de entrenamiento o un conjunto de datos de prueba. Debe proporcionar, al menos, un conjunto de datos de entrenamiento. Los conjuntos de datos de prueba son opcionales. Siga los pasos siguientes para configurar los archivos de manifiesto aumentados:

    1. En Conjunto de datos de entrenamiento y prueba, expanda el panel de ubicación de entrada.

    2. En Tipo de conjunto de datos, seleccione Datos de entrenamiento o Datos de prueba.

    3. Para la ubicación S3 del archivo de manifiesto aumentado SageMaker Ground Truth, introduzca la ubicación del depósito de Amazon S3 que contiene el archivo de manifiesto o navegue hasta él seleccionando Browse S3. El rol de IAM que utilice para obtener permisos de acceso al trabajo de entrenamiento debe tener permisos de lectura para el bucket de S3.

    4. Para los nombres de los atributos, introduzca el nombre del atributo que contiene las anotaciones. Si el archivo contiene anotaciones de varios trabajos de etiquetado encadenados, añada un atributo para cada trabajo.

    5. Para agregar otra ubicación de entrada, elija Añadir ubicación de entrada y, a continuación, configure la siguiente ubicación.

  12. (Opcional) Si ha elegido un archivo CSV como formato de datos, siga estos pasos para configurar el conjunto de datos de entrenamiento y el conjunto de datos de prueba opcional:

    1. En Conjunto de datos de entrenamiento, introduzca la ubicación del bucket de Amazon S3 que contiene el archivo CSV de datos de entrenamiento o diríjase a él seleccionando Explorar S3. El rol de IAM que utilice para obtener permisos de acceso al trabajo de entrenamiento debe tener permisos de lectura para el bucket de S3.

      (Opcional) Si eligió Documentos nativos como tipo de modelo de entrenamiento, también proporcionará la URL de la carpeta Amazon S3 que contiene los archivos de ejemplo de entrenamiento.

    2. En Probar conjunto de datos, seleccione si va a proporcionar datos adicionales para que Amazon Comprehend pruebe el modelo entrenado.

      • Autosplit: Autosplit selecciona automáticamente el 10 % de los datos de entrenamiento a fin de reservarlos para usarlos como datos de prueba.

      • (Opcional) Cliente provisto: introduzca la URL del archivo CSV de datos de prueba en Amazon S3. También puede ir a su ubicación en Amazon S3 y elegir Seleccionar carpeta.

        (Opcional) Si eligió Documentos nativos como tipo de modelo de entrenamiento, también proporcionará la URL de la carpeta Amazon S3 que contiene los archivos de prueba.

  13. (Opcional) En el modo de lectura de documentos, puede anular las acciones de extracción de texto predeterminadas. Esta opción no es necesaria para los modelos de texto sin formato, ya que se aplica a la extracción de texto de documentos escaneados. Para obtener más información, consulte Configuración de las opciones de extracción de texto.

  14. (Opcional para los modelos de texto sin formato) En el caso de los datos de salida, introduzca la ubicación de un bucket de Amazon S3 para guardar los datos de salida del entrenamiento, como la matriz de confusión. Para obtener más información, consulte Matriz de confusión.

    (Opcional) Si decide cifrar el resultado de su trabajo de entrenamiento, elija Cifrado. A continuación, elija si desea utilizar una clave de KMS asociada a la cuenta actual o una de otra cuenta.

    • Si utiliza una clave asociada a la cuenta actual, seleccione el alias de clave para el ID de la clave KMS.

    • Si utiliza una clave asociada a una cuenta diferente, introduzca el ARN del alias o ID de la clave que figura en el ID de la clave KMS.

  15. Para el rol de IAM, seleccione Elegir un rol de IAM existente y, a continuación, elija un rol de IAM existente que tenga permisos de lectura para el bucket de S3 y que contenga sus documentos de entrenamiento. La función debe tener una política de confianza que comience con comprehend.amazonaws.com para ser válida.

    Si aún no tiene un rol de IAM con estos permisos, elija Crear un rol de IAM para crear uno. Seleccione los permisos de acceso para conceder este rol y, a continuación, seleccione un sufijo de nombre para distinguir el rol de los roles de IAM de su cuenta.

    nota

    En el caso de los documentos de entrada cifrados, el rol de IAM utilizada también debe tener permiso kms:Decrypt. Para obtener más información, consulte Permisos necesarios para utilizar el cifrado KMS.

  16. (Opcional) Para lanzar sus recursos a Amazon Comprehend desde una VPC, introduzca el ID de VPC en VPC o elija el ID de la lista desplegable.

    1. Seleccione la subred en Subred(es). Después de seleccionar la primera subred, puede elegir otras adicionales.

    2. En Grupo(s) de seguridad, seleccione el grupo de seguridad que desea usar si especificó uno. Después de seleccionar el primer grupo de seguridad, puede elegir otros adicionales.

    nota

    Cuando utiliza una VPC con su trabajo de clasificación, el DataAccessRole utilizado para las operaciones de crear e iniciar debe tener permisos para la VPC que accede a los documentos de entrada y al bucket de salida.

  17. (Opcional) Para agregar una etiqueta al clasificador personalizado, ingrese un par clave-valor en Etiquetas. Elija Añadir etiqueta. Para eliminar este par antes de crear el clasificador, seleccione Quitar etiqueta. Para obtener más información, consulte Etiquetado de los recursos.

  18. Seleccione Crear.

La consola muestra la página Clasificadores. El nuevo clasificador aparece en la tabla y se muestra Submitted como su estado. Cuando el clasificador comienza a procesar los documentos de entrenamiento, el estado cambia a Training. Cuando un clasificador está listo para usarse, el estado cambia a Trained o a Trained with warnings. Si el estado es TRAINED_WITH_WARNINGS, revise la carpeta de archivos omitidos en Resultado del entrenamiento del clasificador.

Si Amazon Comprehend detectó errores durante la creación o el entrenamiento, el estado cambia a In error. Puede elegir un trabajo de clasificador de la tabla para obtener más información sobre el clasificador, incluidos los mensajes de error.

La lista de clasificadores personalizados.