Paso 1: Añadir documentos a Amazon S3 - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Paso 1: Añadir documentos a Amazon S3

Antes de ejecutar un trabajo de análisis de entidades de Amazon Comprehend en su conjunto de datos, debe crear un bucket de Amazon S3 para alojar los datos, los metadatos y el resultado del análisis de entidades de Amazon Comprehend.

Descarga del conjunto de datos de muestra

Antes de que Amazon Comprehend pueda ejecutar un trabajo de análisis de entidades en sus datos, debe descargar y extraer el conjunto de datos y cargarlo en un bucket de S3.

  1. Descargue la carpeta tutorial-dataset.zip en su dispositivo.

  2. Extraiga la carpeta tutorial-dataset para acceder a la carpeta data.

  1. Para descargar el tutorial-dataset, ejecute el siguiente comando en una ventana de terminal:

    Linux
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    Donde:

    • path/ es la ruta del archivo local a la ubicación en la que desea guardar la carpeta zip.

    macOS
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    Donde:

    • path/ es la ruta del archivo local a la ubicación en la que desea guardar la carpeta zip.

    Windows
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    Donde:

    • path/ es la ruta del archivo local a la ubicación en la que desea guardar la carpeta zip.

  2. Para extraer los datos de la carpeta zip, ejecute el siguiente comando en la ventana del terminal:

    Linux
    unzip path/tutorial-dataset.zip -d path/

    Donde:

    • path/ es la ruta de archivo local a la carpeta zip guardada.

    macOS
    unzip path/tutorial-dataset.zip -d path/

    Donde:

    • path/ es la ruta de archivo local a la carpeta zip guardada.

    Windows
    tar -xf path/tutorial-dataset.zip -C path/

    Donde:

    • path/ es la ruta de archivo local a la carpeta zip guardada.

Al final de este paso, deberías tener los archivos extraídos en una carpeta descomprimida llamada tutorial-dataset. Esta carpeta contiene un archivo README con una atribución de código abierto de Apache 2.0 y una carpeta llamada data que contiene el conjunto de datos de este tutorial. El conjunto de datos consta de 100 archivos con extensiones .story.

Creación de un bucket de Amazon S3

Después de descargar y extraer la carpeta de datos de muestra, se almacena en un bucket de Amazon S3.

importante

El nombre de un bucket de Amazon S3 debe ser único en todas las AWS.

  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon S3 en https://console.aws.amazon.com/s3/.

  2. En Buckets, seleccione Crear bucket.

  3. En Nombre del bucket, escriba un nombre único.

  4. Para Region, elija la región de AWS en la que desea crear el bucket.

    nota

    Debe elegir una región que admita Amazon Comprehend y Amazon Kendra. No puede cambiar la región de un bucket después de haberlo creado.

  5. Mantenga la configuración predeterminada para Bloquear el acceso público para este bucket, el control de versiones del bucket y las etiquetas.

  6. Para el cifrado predeterminado, seleccione Desactivar.

  7. Mantenga la configuración predeterminada para la Configuración avanzada.

  8. Revise la configuración del bucket y elija Crear bucket.

  1. Para crear un bucket de S3 use el comando create-bucket en la AWS CLI.

    Linux
    aws s3api create-bucket \ --bucket DOC-EXAMPLE-BUCKET \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket,

    • aws-region es la región en la que quiere crear su bucket.

    macOS
    aws s3api create-bucket \ --bucket DOC-EXAMPLE-BUCKET \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket,

    • aws-region es la región en la que quiere crear su bucket.

    Windows
    aws s3api create-bucket ^ --bucket DOC-EXAMPLE-BUCKET ^ --region aws-region ^ --create-bucket-configuration LocationConstraint=aws-region

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket,

    • aws-region es la región en la que quiere crear su bucket.

    nota

    Debe elegir una región que admita Amazon Comprehend y Amazon Kendra. No puede cambiar la región de un bucket después de haberlo creado.

  2. Para asegurarse de que su bucket se creó correctamente, utilice el comando list:

    Linux
    aws s3 ls
    macOS
    aws s3 ls
    Windows
    aws s3 ls

Crear carpetas de datos y metadatos en su bucket de S3

Tras crear su bucket S3, cree carpetas de datos y metadatos en su interior.

  1. Abra la consola de Amazon S3 en https://console.aws.amazon.com/s3.

  2. En Buckets, haga clic en el nombre de su bucket de la lista.

  3. En la pestaña Objetos, elija Crear carpeta.

  4. Para el nombre de la nueva carpeta, escriba data.

  5. Para la configuración de cifrado de carpeta, elija Desactivar.

  6. Elija Crear carpeta.

  7. Repita los pasos 3 a 6 para crear otra carpeta para almacenar los metadatos de Amazon Kendra y asigne un nombre a la carpeta creada en el paso 4 metadata.

  1. Para crear la carpeta data en su bucket de S3, utilice el comando put-object en la AWS CLI:

    Linux
    aws s3api put-object \ --bucket DOC-EXAMPLE-BUCKET \ --key data/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    macOS
    aws s3api put-object \ --bucket DOC-EXAMPLE-BUCKET \ --key data/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    Windows
    aws s3api put-object ^ --bucket DOC-EXAMPLE-BUCKET ^ --key data/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

  2. Para crear la carpeta metadata en su bucket de S3, utilice el comando put-object en la AWS CLI:

    Linux
    aws s3api put-object \ --bucket DOC-EXAMPLE-BUCKET \ --key metadata/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    macOS
    aws s3api put-object \ --bucket DOC-EXAMPLE-BUCKET \ --key metadata/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    Windows
    aws s3api put-object ^ --bucket DOC-EXAMPLE-BUCKET ^ --key metadata/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

  3. Para asegurarse de que sus carpetas se han creado correctamente, compruebe el contenido de su bucket utilizando el comando list:

    Linux
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    macOS
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    Windows
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

Cargar los datos de entrada.

Tras crear las carpetas de datos y metadatos, debe cargar el conjunto de datos de muestra en la carpeta data.

  1. Abra la consola de Amazon S3 en https://console.aws.amazon.com/s3.

  2. En Buckets, haga clic en el nombre de su bucket de la lista y haga clic en data.

  3. Elija Cargar y, a continuación, Agregar archivo.

  4. En el cuadro de diálogo, navegue hasta la carpeta data incluida en la carpeta tutorial-dataset de su dispositivo local, seleccione todos los archivos y, a continuación, elija Abrir.

  5. Mantenga la configuración predeterminada de Destino, Permisos y Propiedades.

  6. Seleccione Cargar.

  1. Para cargar los datos de muestra en la carpeta data, utilice el comando copy en la AWS CLI:

    Linux
    aws s3 cp path/tutorial-dataset/data s3://DOC-EXAMPLE-BUCKET/data/ --recursive

    Donde:

    • path/ es la ruta del archivo a la carpeta tutorial-dataset de su dispositivo,

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    macOS
    aws s3 cp path/tutorial-dataset/data s3://DOC-EXAMPLE-BUCKET/data/ --recursive

    Donde:

    • path/ es la ruta del archivo a la carpeta tutorial-dataset de su dispositivo,

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

    Windows
    aws s3 cp path/tutorial-dataset/data s3://DOC-EXAMPLE-BUCKET/data/ --recursive

    Donde:

    • path/ es la ruta del archivo a la carpeta tutorial-dataset de su dispositivo,

    • DOC-EXAMPLE-BUCKET es el nombre de su bucket.

  2. Para asegurarse de que sus archivos de conjuntos de datos se han cargado correctamente en su carpeta data, utilice el comando list en la AWS CLI:

    Linux
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/data/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    macOS
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/data/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

    Windows
    aws s3 ls s3://DOC-EXAMPLE-BUCKET/data/

    Donde:

    • DOC-EXAMPLE-BUCKET es el nombre del bucket de S3.

Al final de este paso, dispondrá de un bucket de S3 con el conjunto de datos almacenado en la carpeta data y de una carpeta metadata vacía en la que se almacenarán los metadatos de Amazon Kendra.