Paso 3: Formatear el resultado del análisis de entidades como metadatos de Amazon Kendra - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Paso 3: Formatear el resultado del análisis de entidades como metadatos de Amazon Kendra

Para convertir las entidades extraídas por Amazon Comprehend al formato de metadatos requerido por un índice de Amazon Kendra, ejecute un script de Python 3. Los resultados de la conversión se almacenan en la carpeta metadata del bucket de Amazon S3.

Para obtener más información sobre el formato y la estructura de los metadatos de Amazon Kendra, consulte Metadatos de documentos de S3.

Descargar y extraer el resultado de Amazon Comprehend

Para formatear la salida del análisis de entidades de Amazon Comprehend, primero debe descargar el archivo output.tar.gz de análisis de entidades de Amazon Comprehend y extraer el archivo de análisis de entidades.

  1. En el panel de navegación de la consola Amazon Comprehend, vaya a Trabajos de análisis.

  2. Elija su trabajo de análisis de entidades data-entities-analysis.

  3. En Salida, elija el enlace que aparece junto a la ubicación de los datos de salida. Esto lo redirige al archivo output.tar.gz de su bucket de S3.

  4. En la página Información general, seleccione Descargar.

    sugerencia

    El resultado de todos los trabajos de análisis de Amazon Comprehend tiene el mismo nombre. Cambiar el nombre de su archivo le ayudará a rastrearlo más fácilmente.

  5. Descomprime y extrae el archivo Amazon Comprehend descargado en tu dispositivo.

  1. Para acceder al nombre de la carpeta generada automáticamente por Amazon Comprehend en su bucket de S3 y que contiene los resultados del trabajo de análisis de entidades, utilice el comando describe-entities-detection-job:

    Linux
    aws comprehend describe-entities-detection-job \ --job-id entities-job-id \ --region aws-region

    Donde:

    macOS
    aws comprehend describe-entities-detection-job \ --job-id entities-job-id \ --region aws-region

    Donde:

    Windows
    aws comprehend describe-entities-detection-job ^ --job-id entities-job-id ^ --region aws-region

    Donde:

  2. Del objeto OutputDataConfig de la descripción del trabajo de su entidad, copie y guarde el valor S3Uri como comprehend-S3uri en un editor de texto.

    nota

    El valor S3Uri tiene un formato similar a s3://DOC-EXAMPLE-BUCKET /…/output/output.tar.gz.

  3. Para descargar el archivo de salida de las entidades, utilice el comando copy:

    Linux
    aws s3 cp s3://DOC-EXAMPLE-BUCKET/.../output/output.tar.gz path/output.tar.gz

    Donde:

    • s3://DOC-EXAMPLE-BUCKET/…/output/output.tar.gz es el valor S3Uri que guardó como comprehend-S3uri,

    • path/ es el directorio local en el que desea guardar la salida.

    macOS
    aws s3 cp s3://DOC-EXAMPLE-BUCKET/.../output/output.tar.gz path/output.tar.gz

    Donde:

    • s3://DOC-EXAMPLE-BUCKET/…/output/output.tar.gz es el valor S3Uri que guardó como comprehend-S3uri,

    • path/ es el directorio local en el que desea guardar la salida.

    Windows
    aws s3 cp s3://DOC-EXAMPLE-BUCKET/.../output/output.tar.gz path/output.tar.gz

    Donde:

    • s3://DOC-EXAMPLE-BUCKET/…/output/output.tar.gz es el valor S3Uri que guardó como comprehend-S3uri,

    • path/ es el directorio local en el que desea guardar la salida.

  4. Para extraer la salida de las entidades, ejecute el siguiente comando en una ventana de terminal:

    Linux
    tar -xf path/output.tar.gz -C path/

    Donde:

    • path/ es la ruta del archivo output.tar.gz descargado en su dispositivo local.

    macOS
    tar -xf path/output.tar.gz -C path/

    Donde:

    • path/ es la ruta del archivo output.tar.gz descargado en su dispositivo local.

    Windows
    tar -xf path/output.tar.gz -C path/

    Donde:

    • path/ es la ruta del archivo output.tar.gz descargado en su dispositivo local.

Al final de este paso, deberías tener un archivo en tu dispositivo llamado output con una lista de las entidades identificadas por Amazon Comprehend.

Cargar la salida en el bucket de S3

Tras descargar y extraer el archivo de análisis de entidades de Amazon Comprehend, debe cargar el archivo output extraído en su bucket de Amazon S3.

  1. Abra la consola de Amazon S3 en https://console.aws.amazon.com/s3.

  2. En la sección Buckets, haga clic en su bucket y, a continuación, elija Cargar.

  3. En Archivos y carpetas, elija Añadir archivos.

  4. En el cuadro de diálogo, navegue hasta el archivo output extraído en su dispositivo, selecciónelo y elija Abrir.

  5. Mantenga la configuración predeterminada de Destino, Permisos y Propiedades.

  6. Seleccione Cargar.

  1. Para cargar el archivo output extraído a su bucket, utilice el comando copy:

    Linux
    aws s3 cp path/output s3://DOC-EXAMPLE-BUCKET/output

    Donde:

    • path/ es la ruta del archivo local al archivo output extraído,

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    macOS
    aws s3 cp path/output s3://DOC-EXAMPLE-BUCKET/output

    Donde:

    • path/ es la ruta del archivo local al archivo output extraído,

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    Windows
    aws s3 cp path/output s3://DOC-EXAMPLE-BUCKET/output

    Donde:

    • path/ es la ruta del archivo local al archivo output extraído,

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

  2. Para asegurarse de que el archivo output se ha cargado correctamente en su bucket de S3, compruebe su contenido mediante el comando list:

    Linux
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    macOS
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    Windows
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

Conversión de la salida al formato de metadatos de Amazon Kendra

Para convertir la salida de Amazon Comprehend en metadatos de Amazon Kendra, ejecute un script de Python 3. Si utiliza la consola, utilice AWS CloudShell para este paso.

  1. Descargue el archivo comprimido converter.py.zip en su dispositivo.

  2. Extraiga el archivo converter.py Python 3.

  3. Inicie sesión en la consola de administración de AWS y asegúrese de que su región AWS esté configurada en la misma región que su bucket de S3 y su trabajo de análisis de Amazon Comprehend.

  4. Elija el icono de AWS CloudShell o escriba CloudShell AWS en el cuadro de búsqueda de la barra de navegación superior para iniciar un entorno.

    nota

    Cuando AWS CloudShell se inicia por primera vez en una nueva ventana del navegador, un panel de bienvenida muestra y enumera las características clave. El intérprete de comandos está listo para la interacción después de cerrar este panel y aparece el símbolo del sistema.

  5. Una vez que el terminal esté preparado, seleccione Acciones en el panel de navegación y, a continuación, seleccione Cargar archivo en el menú.

  6. En el cuadro de diálogo que se abre, seleccione Seleccionar archivo y, a continuación, elige el archivo converter.py de Python 3 descargado de su dispositivo. Seleccione Cargar.

  7. En el entorno AWS CloudShell, introduzca el comando siguiente:

    python3 converter.py
  8. Cuando la interfaz del intérprete de comandos le pida que introduzca el nombre del bucket de S3, introduzca el nombre del bucket de S3 y pulse Entrar.

  9. Cuando la interfaz intérprete de comandos le pida que introduzca la ruta completa del archivo de salida de Comprehend, introduzca output y pulse Entrar.

  10. Cuando la interfaz de intérprete de comandos le pida que introduzca la ruta completa del archivo a su carpeta de metadatos, introduzca metadata/ y pulse Entrar .

importante

Para que los metadatos tengan el formato correcto, los valores de entrada de los pasos 8 a 10 deben ser exactos.

  1. Para descargar el archivo converter.py para Python 3, ejecute el siguiente comando en una ventana de terminal:

    Linux
    curl -o path/converter.py.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/converter.py.zip

    Donde:

    • path/ es la ruta del archivo a la ubicación en la que desea guardar el archivo comprimido.

    macOS
    curl -o path/converter.py.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/converter.py.zip

    Donde:

    • path/ es la ruta del archivo a la ubicación en la que desea guardar el archivo comprimido.

    Windows
    curl -o path/converter.py.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/converter.py.zip

    Donde:

    • path/ es la ruta del archivo a la ubicación en la que desea guardar el archivo comprimido.

  2. Para extraer el archivo Python 3, ejecute el siguiente comando en la ventana del terminal:

    Linux
    unzip path/converter.py.zip -d path/

    Donde:

    • path/ es la ruta del archivo a su converter.py.zip.

    macOS
    unzip path/converter.py.zip -d path/

    Donde:

    • path/ es la ruta del archivo a su converter.py.zip.

    Windows
    tar -xf path/converter.py.zip -C path/

    Donde:

    • path/ es la ruta del archivo a su converter.py.zip.

  3. Asegúrese de que Boto3 esté instalado en el dispositivo; para ello, ejecute el siguiente comando.

    Linux
    pip3 show boto3
    macOS
    pip3 show boto3
    Windows
    pip3 show boto3
    nota

    Si no tiene Boto3 instalado, ejecute pip3 install boto3 para instalarlo.

  4. Para ejecutar el script de Python 3 para convertir el archivo output, ejecute el siguiente comando.

    Linux
    python path/converter.py

    Donde:

    • path/ es la ruta del archivo a su converter.py.zip.

    macOS
    python path/converter.py

    Donde:

    • path/ es la ruta del archivo a su converter.py.zip.

    Windows
    python path/converter.py

    Donde:

    • path/ es la ruta del archivo a su converter.py.zip.

  5. Cuando la AWS CLI le pida que Enter the name of your S3 bucket, introduzca el nombre del bucket de S3 y pulse Entrar.

  6. Cuando la AWS CLI le pida que Enter the full filepath to your Comprehend output file, introduzca output y pulse Entrar.

  7. Cuando la AWS CLI le pida que Enter the full filepath to your metadata folder, introduzca metadata/ y pulse Entrar.

importante

Para que los metadatos tengan el formato correcto, los valores de entrada de los pasos 5 a 7 deben ser exactos.

Al final de este paso, los metadatos formateados se depositan en la carpeta metadata del bucket de S3.

Limpieza del bucket de Amazon S3

Dado que el índice de Amazon Kendra sincroniza todos los archivos almacenados en un bucket, le recomendamos que limpie su bucket de Amazon S3 para evitar resultados de búsqueda redundantes.

  1. Abra la consola de Amazon S3 en https://console.aws.amazon.com/s3.

  2. En Buckets, elija su bucket y, a continuación, seleccione la carpeta de salida del análisis de entidades de Amazon Comprehend, el archivo .temp de análisis de entidades de Amazon Comprehend y el archivo output de Amazon Comprehend extraído.

  3. En la pestaña Descripción general, seleccione Eliminar.

  4. En Eliminar objetos, elija ¿Eliminar objetos permanentemente? e ingrese permanently delete en el campo de entrada de texto.

  5. Elija Eliminar objetos.

  1. Para eliminar todos los archivos y carpetas de su bucket de S3, excepto las carpetas data y metadata, utilice el comando remove en la AWS CLI:

    Linux
    aws s3 rm s3://DOC-EXAMPLE-BUCKET/ --recursive --exclude "data/*" --exclude "metadata/*"

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    macOS
    aws s3 rm s3://DOC-EXAMPLE-BUCKET/ --recursive --exclude "data/*" --exclude "metadata/*"

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    Windows
    aws s3 rm s3://DOC-EXAMPLE-BUCKET/ --recursive --exclude "data/*" --exclude "metadata/*"

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

  2. Para asegurarse de que los objetos se han eliminado correctamente de su bucket de S3, compruebe su contenido utilizando el comando list:

    Linux
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    macOS
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    Windows
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

Al final de este paso, ha convertido el resultado del análisis de entidades de Amazon Comprehend en metadatos de Amazon Kendra. Ahora está listo para crear un índice de Amazon Kendra.