Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Paso 3: Formatear el resultado del análisis de entidades como metadatos de Amazon Kendra
Para convertir las entidades extraídas por Amazon Comprehend al formato de metadatos requerido por un índice de Amazon Kendra, ejecute un script de Python 3. Los resultados de la conversión se almacenan en la carpeta metadata
del bucket de Amazon S3.
Para obtener más información sobre el formato y la estructura de los metadatos de Amazon Kendra, consulte Metadatos de documentos de S3.
Temas
Descargar y extraer el resultado de Amazon Comprehend
Para formatear la salida del análisis de entidades de Amazon Comprehend, primero debe descargar el archivo output.tar.gz
de análisis de entidades de Amazon Comprehend y extraer el archivo de análisis de entidades.
-
En el panel de navegación de la consola Amazon Comprehend, vaya a Trabajos de análisis.
-
Elija su trabajo de análisis de entidades
data-entities-analysis
. -
En Salida, elija el enlace que aparece junto a la ubicación de los datos de salida. Esto lo redirige al archivo
output.tar.gz
de su bucket de S3. -
En la página Información general, seleccione Descargar.
sugerencia
El resultado de todos los trabajos de análisis de Amazon Comprehend tiene el mismo nombre. Cambiar el nombre de su archivo le ayudará a rastrearlo más fácilmente.
-
Descomprime y extrae el archivo Amazon Comprehend descargado en tu dispositivo.
-
Para acceder al nombre de la carpeta generada automáticamente por Amazon Comprehend en su bucket de S3 y que contiene los resultados del trabajo de análisis de entidades, utilice el comando describe-entities-detection-job:
-
Del objeto
OutputDataConfig
de la descripción del trabajo de su entidad, copie y guarde el valorS3Uri
comocomprehend-S3uri
en un editor de texto.nota
El valor
S3Uri
tiene un formato similar as3://
DOC-EXAMPLE-BUCKET
/…/output/output.tar.gz. -
Para descargar el archivo de salida de las entidades, utilice el comando copy
: -
Para extraer la salida de las entidades, ejecute el siguiente comando en una ventana de terminal:
Al final de este paso, deberías tener un archivo en tu dispositivo llamado output
con una lista de las entidades identificadas por Amazon Comprehend.
Cargar la salida en el bucket de S3
Tras descargar y extraer el archivo de análisis de entidades de Amazon Comprehend, debe cargar el archivo output
extraído en su bucket de Amazon S3.
Abra la consola de Amazon S3 en https://console.aws.amazon.com/s3
. -
En la sección Buckets, haga clic en su bucket y, a continuación, elija Cargar.
-
En Archivos y carpetas, elija Añadir archivos.
-
En el cuadro de diálogo, navegue hasta el archivo
output
extraído en su dispositivo, selecciónelo y elija Abrir. -
Mantenga la configuración predeterminada de Destino, Permisos y Propiedades.
-
Seleccione Cargar.
Conversión de la salida al formato de metadatos de Amazon Kendra
Para convertir la salida de Amazon Comprehend en metadatos de Amazon Kendra, ejecute un script de Python 3. Si utiliza la consola, utilice AWS CloudShell para este paso.
-
Descargue el archivo comprimido converter.py.zip en su dispositivo.
-
Extraiga el archivo
converter.py
Python 3. -
Inicie sesión en la consola de administración de AWS
y asegúrese de que su región AWS esté configurada en la misma región que su bucket de S3 y su trabajo de análisis de Amazon Comprehend. -
Elija el icono de AWS CloudShell o escriba CloudShell AWS en el cuadro de búsqueda de la barra de navegación superior para iniciar un entorno.
nota
Cuando AWS CloudShell se inicia por primera vez en una nueva ventana del navegador, un panel de bienvenida muestra y enumera las características clave. El intérprete de comandos está listo para la interacción después de cerrar este panel y aparece el símbolo del sistema.
-
Una vez que el terminal esté preparado, seleccione Acciones en el panel de navegación y, a continuación, seleccione Cargar archivo en el menú.
-
En el cuadro de diálogo que se abre, seleccione Seleccionar archivo y, a continuación, elige el archivo
converter.py
de Python 3 descargado de su dispositivo. Seleccione Cargar. -
En el entorno AWS CloudShell, introduzca el comando siguiente:
python3 converter.py
-
Cuando la interfaz del intérprete de comandos le pida que introduzca el nombre del bucket de S3, introduzca el nombre del bucket de S3 y pulse Entrar.
-
Cuando la interfaz intérprete de comandos le pida que introduzca la ruta completa del archivo de salida de Comprehend, introduzca
output
y pulse Entrar. -
Cuando la interfaz de intérprete de comandos le pida que introduzca la ruta completa del archivo a su carpeta de metadatos, introduzca
metadata/
y pulse Entrar .
importante
Para que los metadatos tengan el formato correcto, los valores de entrada de los pasos 8 a 10 deben ser exactos.
-
Para descargar el archivo
converter.py
para Python 3, ejecute el siguiente comando en una ventana de terminal: -
Para extraer el archivo Python 3, ejecute el siguiente comando en la ventana del terminal:
-
Asegúrese de que Boto3 esté instalado en el dispositivo; para ello, ejecute el siguiente comando.
nota
Si no tiene Boto3 instalado, ejecute
pip3 install boto3
para instalarlo. -
Para ejecutar el script de Python 3 para convertir el archivo
output
, ejecute el siguiente comando. -
Cuando la AWS CLI le pida que
Enter the name of your S3 bucket
, introduzca el nombre del bucket de S3 y pulse Entrar. -
Cuando la AWS CLI le pida que
Enter the full filepath to your Comprehend output file
, introduzcaoutput
y pulse Entrar. -
Cuando la AWS CLI le pida que
Enter the full filepath to your metadata folder
, introduzcametadata/
y pulse Entrar.
importante
Para que los metadatos tengan el formato correcto, los valores de entrada de los pasos 5 a 7 deben ser exactos.
Al final de este paso, los metadatos formateados se depositan en la carpeta metadata
del bucket de S3.
Limpieza del bucket de Amazon S3
Dado que el índice de Amazon Kendra sincroniza todos los archivos almacenados en un bucket, le recomendamos que limpie su bucket de Amazon S3 para evitar resultados de búsqueda redundantes.
Abra la consola de Amazon S3 en https://console.aws.amazon.com/s3
. -
En Buckets, elija su bucket y, a continuación, seleccione la carpeta de salida del análisis de entidades de Amazon Comprehend, el archivo
.temp
de análisis de entidades de Amazon Comprehend y el archivooutput
de Amazon Comprehend extraído. -
En la pestaña Descripción general, seleccione Eliminar.
-
En Eliminar objetos, elija ¿Eliminar objetos permanentemente? e ingrese
permanently delete
en el campo de entrada de texto. -
Elija Eliminar objetos.
Al final de este paso, ha convertido el resultado del análisis de entidades de Amazon Comprehend en metadatos de Amazon Kendra. Ahora está listo para crear un índice de Amazon Kendra.