Paso 2: Ejecutar un trabajo de análisis de entidades en Amazon Comprehend - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Paso 2: Ejecutar un trabajo de análisis de entidades en Amazon Comprehend

Tras almacenar el conjunto de datos de muestra en su bucket de S3, ejecuta un trabajo de análisis de entidades de Amazon Comprehend para extraer entidades de sus documentos. Estas entidades formarán atributos personalizados de Amazon Kendra y le ayudarán a filtrar los resultados de búsqueda en su índice. Para más información, consulte Detectar entidades.

Ejecución de un trabajo de análisis de entidades de Amazon Comprehend

Para extraer entidades de su conjunto de datos, ejecute un trabajo de análisis de entidades de Amazon Comprehend.

Si utiliza la CLI de AWS en este paso, primero debe crear y adjuntar un rol y una política de IAM de AWS para Amazon Comprehend y, a continuación, ejecutar un trabajo de análisis de entidades. Para ejecutar un trabajo de análisis de entidades en sus datos de muestra, Amazon Comprehend necesita:

  • un rol de IAM de AWS Identity and Access Management que la reconozca como una entidad de confianza

  • una política de IAM de AWS asociada a la rol de IAM que le otorga permisos para acceder a su bucket de S3

Para obtener más información, consulte Cómo funciona Amazon Comprehend con IAM y las políticas basadas en la identidad de Amazon Comprehend.

  1. Abra la consola Amazon Comprehend en https://console.aws.amazon.com/comprehend/.

    importante

    Asegúrese de estar en la misma región en la que creó el bucket de Amazon S3. Si se encuentra en otra región, elija la región de AWS en la que creó su bucket de S3 en el Selector de regiones de la barra de navegación superior.

  2. Elija Lanzar Amazon Comprehend.

  3. En el panel de navegación izquierdo, elija Trabajos de análisis.

  4. Seleccione Crear trabajo.

  5. En la sección Configuración, realice lo siguiente:

    1. En Nombre, escriba data-entities-analysis.

    2. En Tipo de análisis, elija Entidades.

    3. En Idioma, elija Inglés.

    4. Mantenga desactivado el cifrado de trabajos.

  6. En la sección Datos de entrada, realice lo siguiente:

    1. En Origen de datos, seleccione Mis documentos.

    2. Para la ubicación de S3, elija Examinar S3.

    3. En Elegir recursos, haga clic en el nombre de su bucket de la lista.

    4. Para Objetos, seleccione el botón de opción para data y seleccione Elegir.

    5. En Formato de entrada, elija Un documento por archivo.

  7. En la sección Datos de salida, realice lo siguiente:

    1. Para la ubicación de S3, elija Examinar S3 y, a continuación, seleccione la casilla de opciones para su bucket en la lista de buckets y seleccione Elegir.

    2. Mantenga desactivado el Cifrado.

  8. En la sección Permisos de acceso, haga lo siguiente:

    1. En Rol de IAM, elija Crear un nuevo rol.

    2. Para ver los permisos de acceso, seleccione Buckets de S3 de entrada y salida.

    3. En Sufijo de nombre, escriba comprehend-role. Este rol proporciona acceso a su bucket de Amazon S3.

  9. Mantenga la Configuración de la VPC predeterminada.

  10. Seleccione Crear trabajo.

  1. Para crear y adjuntar un rol de IAM para Amazon Comprehend que lo reconozca como una entidad de confianza, haga lo siguiente:

    1. Guarde la siguiente política de confianza como un archivo JSON llamado comprehend-trust-policy.json en un editor de texto de su dispositivo local.

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
    2. Para crear un rol de IAM llamado comprehend-role y adjuntarle el archivo comprehend-trust-policy.json guardado, use el comando create-role:

      Linux
      aws iam create-role \ --role-name comprehend-role \ --assume-role-policy-document file://path/comprehend-trust-policy.json

      Donde:

      • path/ es la ruta del archivo a comprehend-trust-policy.json en su dispositivo local.

      macOS
      aws iam create-role \ --role-name comprehend-role \ --assume-role-policy-document file://path/comprehend-trust-policy.json

      Donde:

      • path/ es la ruta del archivo a comprehend-trust-policy.json en su dispositivo local.

      Windows
      aws iam create-role ^ --role-name comprehend-role ^ --assume-role-policy-document file://path/comprehend-trust-policy.json

      Donde:

      • path/ es la ruta del archivo a comprehend-trust-policy.json en su dispositivo local.

    3. Copie el nombre de recurso de Amazon (ARN) en el editor de texto y guárdelo de forma local como comprehend-role-arn.

      nota

      El ARN tiene un formato similar a arn:aws:iam: :123456789012:role/comprehend-role. Necesita el ARN que guardó como comprehend-role-arn para ejecutar el trabajo de análisis de Amazon Comprehend.

  2. Para crear y adjuntar una política de IAM a su rol de IAM que le conceda permisos para acceder a su bucket de S3, haga lo siguiente:

    1. Guarde la siguiente política de confianza como un archivo JSON llamado comprehend-S3-access-policy.json en un editor de texto de su dispositivo local.

      { "Version": "2012-10-17", "Statement": [ { "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET/*" ], "Effect": "Allow" }, { "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET" ], "Effect": "Allow" }, { "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::DOC-EXAMPLE-BUCKET/*" ], "Effect": "Allow" } ] }
    2. Para crear una política de IAM llamada comprehend-S3-access-policy para acceder a su bucket de S3, utilice el comando create-policy:

      Linux
      aws iam create-policy \ --policy-name comprehend-S3-access-policy \ --policy-document file://path/comprehend-S3-access-policy.json

      Donde:

      • path/ es la ruta del archivo a comprehend-S3-access-policy.json en su dispositivo local.

      macOS
      aws iam create-policy \ --policy-name comprehend-S3-access-policy \ --policy-document file://path/comprehend-S3-access-policy.json

      Donde:

      • path/ es la ruta del archivo a comprehend-S3-access-policy.json en su dispositivo local.

      Windows
      aws iam create-policy ^ --policy-name comprehend-S3-access-policy ^ --policy-document file://path/comprehend-S3-access-policy.json

      Donde:

      • path/ es la ruta del archivo a comprehend-S3-access-policy.json en su dispositivo local.

    3. Copie el nombre de recurso de Amazon (ARN) en el editor de texto y guárdelo de forma local como comprehend-S3-access-arn.

      nota

      El ARN tiene un formato similar a arn:aws:iam: :123456789012:role/Comprehend-S3-Access-Policy. Necesita el ARN que guardó como comprehend-S3-access-arn para asociar el comprehend-S3-access-policy a su rol de IAM.

    4. Para adjuntar el comprehend-S3-access-policy a su rol de IAM, utilice el comando attach-role-policy:

      Linux
      aws iam attach-role-policy \ --policy-arn policy-arn \ --role-name comprehend-role

      Donde:

      • policy-arn es el ARN que guardó como comprehend-S3-access-arn.

      macOS
      aws iam attach-role-policy \ --policy-arn policy-arn \ --role-name comprehend-role

      Donde:

      • policy-arn es el ARN que guardó como comprehend-S3-access-arn.

      Windows
      aws iam attach-role-policy ^ --policy-arn policy-arn ^ --role-name comprehend-role

      Donde:

      • policy-arn es el ARN que guardó como comprehend-S3-access-arn.

  3. Para ejecutar un trabajo de análisis de entidades de Amazon Comprehend, utilice el comando start-entities-detection-job:

    Linux
    aws comprehend start-entities-detection-job \ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/data/,InputFormat=ONE_DOC_PER_FILE \ --output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/ \ --data-access-role-arn role-arn \ --job-name data-entities-analysis \ --language-code en \ --region aws-region

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    • role-arn es el ARN que guardó como comprehend-role-arn,

    • aws-region es su región de AWS.

    macOS
    aws comprehend start-entities-detection-job \ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/data/,InputFormat=ONE_DOC_PER_FILE \ --output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/ \ --data-access-role-arn role-arn \ --job-name data-entities-analysis \ --language-code en \ --region aws-region

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    • role-arn es el ARN que guardó como comprehend-role-arn,

    • aws-region es su región de AWS.

    Windows
    aws comprehend start-entities-detection-job ^ --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/data/,InputFormat=ONE_DOC_PER_FILE ^ --output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/ ^ --data-access-role-arn role-arn ^ --job-name data-entities-analysis ^ --language-code en ^ --region aws-region

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    • role-arn es el ARN que guardó como comprehend-role-arn,

    • aws-region es su región de AWS.

  4. Copie el análisis de entidades JobId y guárdelo en un editor de texto como comprehend-job-id. El JobId le ayuda a realizar el seguimiento del estado de su trabajo de análisis de entidades.

  5. Para realizar un seguimiento del progreso de su trabajo de análisis de entidades, utilice el comando describe-entities-detection-job:

    Linux
    aws comprehend describe-entities-detection-job \ --job-id entities-job-id \ --region aws-region

    Donde:

    • entities-job-id es su comprehend-job-id guardado,

    • aws-region es su región de AWS.

    macOS
    aws comprehend describe-entities-detection-job \ --job-id entities-job-id \ --region aws-region

    Donde:

    • entities-job-id es su comprehend-job-id guardado,

    • aws-region es su región de AWS.

    Windows
    aws comprehend describe-entities-detection-job ^ --job-id entities-job-id ^ --region aws-region

    Donde:

    • entities-job-id es su comprehend-job-id guardado,

    • aws-region es su región de AWS.

Puede tardar varios minutos en cambiar el JobStatus a COMPLETED.

Al final de este paso, Amazon Comprehend almacena los resultados del análisis de entidades como un archivo output.tar.gz comprimido dentro de una carpeta output generada automáticamente en su bucket de S3. Asegúrese de que el estado de su trabajo de análisis esté completo antes de pasar al siguiente paso.