Rastreo de un almacén de datos de Amazon S3 mediante un punto de conexión de VPC - AWS Glue

Rastreo de un almacén de datos de Amazon S3 mediante un punto de conexión de VPC

Es posible que quiera configurar su almacén de datos de Amazon S3 o sus tablas de Data Catalog respaldadas por Amazon S3 para el acceso únicamente a través de un entorno de Amazon Virtual Private Cloud (Amazon VPC), con fines de seguridad, auditoría o control. En este tema se describe cómo crear y probar una conexión con el almacén de datos de Amazon S3 o las tablas de Data Catalog respaldadas por Amazon S3 en un punto de conexión de VPC mediante el tipo de conexión Network.

Realice las siguientes tareas para ejecutar un rastreador en el almacén de datos:

Requisitos previos

Verifique que ha cumplido estos requisitos previos para configurar el acceso a su almacén de datos de Amazon S3 o a sus tablas de Data Catalog respaldadas por Amazon S3 a través de un entorno de Amazon Virtual Private Cloud (Amazon VPC)

  • Una VPC configurada. Por ejemplo: vpc-01685961063b0d84b. Para obtener más información, consulte Introducción a Amazon VPC en la Guía del usuario de Amazon VPC.

  • Un punto de enlace de Amazon S3 asociado a la VPC. Por ejemplo: vpc-01685961063b0d84b. Para obtener más información, consulte Puntos de enlace para Amazon S3 en la Guía del usuario de Amazon VPC.

    
                            Ejemplo de un punto de enlace de Amazon S3 asociado a una VPC.
  • Una entrada de ruta que apunta al punto de enlace de la VPC. Por ejemplo vpce-0ec5da4d265227786 en la tabla de enrutamiento utilizada por el punto de enlace de la VPC (vpce-0ec5da4d265227786).

    
                            Ejemplo de una entrada de ruta que apunta al punto de enlace de la VPC.
  • Una ACL de red asociada a la VPC permite el tráfico.

  • Un grupo de seguridad asociado a la VPC permite el tráfico.

Crear la conexión a Amazon S3

Normalmente, estos recursos se crean dentro de Amazon Virtual Private Cloud (Amazon VPC) de forma que no se pueda tener acceso a ellos a través de la red pública de Internet. De forma predeterminada, AWS Glue no puede tener acceso a los recursos dentro de una VPC. Para que AWS Glue pueda obtener acceso a los recursos dentro de su VPC, debe proporcionar información de configuración específica de VPC adicional que incluya los ID de subred y los ID de los grupos de seguridad de la VPC. Para crear una conexión de Network deberá especificar la siguiente información:

  • ID DE LA VPC

  • Una subred dentro de la VPC

  • Un grupo de seguridad

Para configurar una conexión Network:

  1. Elija Add connection (Agregar conexión) en el panel de navegación de la consola de AWS Glue.

  2. Ingrese el nombre de la conexión, elija Network (Red) como el tipo de conexión. Elija Next (Siguiente).

    
                            Seleccionar el tipo de conexión.
  3. Configure la información de la VPC, subred y grupos de seguridad.

    • VPC: elija el nombre de la VPC que contiene su almacén de datos.

    • Subred: elija una subred en su VPC.

    • Grupos de seguridad: elija uno o más grupos de seguridad que permitan el acceso al almacén de datos de la VPC.

    
                            Seleccionar el tipo de conexión.
  4. Elija Next (Siguiente).

  5. Verifique la información de conexión y elija Finish (Finalizar).

    
                            Seleccionar el tipo de conexión.

Prueba de la conexión a Amazon S3

Una vez que haya creado su conexión Network, puede probar la conectividad con su almacén de datos de Amazon S3 en un punto de enlace de la VPC.

Pueden producirse los siguientes errores al probar una conexión:

  • INTERNET CONNECTION ERROR (ERROR DE CONEXIÓN A INTERNET): indica un problema de conexión a Internet

  • INVALID BUCKET ERROR (ERROR DE BUCKET NO VÁLIDO): indica un problema con el bucket de Amazon S3

  • S3 CONNECTION ERROR (ERROR DE CONEXIÓN DE S3): indica un error al conectarse a Amazon S3

  • INVALID CONNECTION TYPE (TIPO DE CONEXIÓN NO VÁLIDA): indica que el tipo de conexión no tiene el valor esperado, NETWORK

  • INVALID CONNECTION TEST TYPE (TIPO DE PRUEBA DE CONEXIÓN NO VÁLIDA): indica un problema con el tipo de prueba de conexión de red

  • INVALID TARGET (DESTINO NO VÁLIDO): indica que el bucket de Amazon S3 no se ha especificado correctamente

Para probar una conexión Network:

  1. Seleccione la conexión Network (Red) en la consola de AWS Glue.

  2. Elija Test Connection (Probar conexión).

  3. Elija el rol de IAM que creó en el paso anterior y especifique un bucket de Amazon S3.

  4. Elija Test connection (Probar conexión) para comenzar la prueba. Puede tardar unos minutos en mostrar el resultado.


                    Comprobación de la conexión.

Si recibe un error, verifique lo siguiente:

  • Se proporcionan los privilegios correctos para el rol seleccionado.

  • Se proporciona el bucket correcto de Amazon S3.

  • Los grupos de seguridad y la ACL de red permiten el tráfico entrante y saliente requerido.

  • La VPC especificada está conectada a un punto de enlace de la VPC de Amazon S3.

Una vez haya probado la conexión con éxito, puede crear un rastreador.

Creación de un rastreador para un almacén de datos de Amazon S3

Ahora, puede crear un rastreador que especifique la conexión Network que ha creado. Para obtener más información sobre cómo crear un rastreador, consulte Trabajo con rastreadores en la consola de AWS Glue (AWS Glue).

  1. En primer lugar, elija Crawlers (Rastreadores) en el panel de navegación de la consola de AWS Glue.

  2. Elija Add crawler (Agregar rastreador).

  3. Especifique el nombre del rastreador y elija Next (Siguiente).

  4. Cuando se le solicite el origen de los datos, elija S3 y especifique el prefijo del bucket de Amazon S3 y la conexión que creó con anterioridad.

    
                            Comprobación de la conexión.
  5. Si es necesario, agregue otro almacén de datos en la misma conexión de red.

  6. Elija el rol de IAM. El rol de IAM debe permitir el acceso al servicio de AWS Glue y al bucket de Amazon S3. Para obtener más información, consulte Trabajo con rastreadores en la consola de AWS Glue (AWS Glue) .

    
                            Comprobación de la conexión.
  7. Definir la programación para el rastreador.

  8. Elija una base de datos existente en el catálogo de datos o cree una nueva entrada de base de datos.

    
                            Comprobación de la conexión.
  9. Finalice la configuración restante.

Creación de un rastreador para tablas de Data Catalog respaldadas por Amazon S3

Ahora, puede crear un rastreador que especifique la conexión Network que ha creado y un tipo de origen Catalog (Catálogo). Para obtener más información sobre cómo crear un rastreador, consulte Trabajo con rastreadores en la consola de AWS Glue (AWS Glue).

  1. En primer lugar, elija Crawlers (Rastreadores) en el panel de navegación de la consola de AWS Glue.

  2. Elija Add crawler (Agregar rastreador).

  3. Especifique el nombre del rastreador y elija Next (Siguiente).

  4. Cuando se le solicite el tipo de origen del rastreador, elija Existing catalog tables (Tablas de catálogo existentes) y especifique las tablas de catálogo existentes que se van a rastrear en la lista de tablas disponibles.

    
                            Selección del tipo de origen del rastreador.
  5. Elija el rol de IAM. El rol de IAM debe permitir el acceso al servicio de AWS Glue y al bucket de Amazon S3. Para obtener más información, consulte Trabajo con rastreadores en la consola de AWS Glue (AWS Glue) .

  6. Definir la programación para el rastreador.

  7. Elija una base de datos existente en el catálogo de datos o cree una nueva entrada de base de datos.

  8. Finalice la configuración restante y revise los pasos.

    
                            Selección del tipo de origen del rastreador.

Ejecución de un rastreador

Ejecute su rastreador.


                    Ejecutar su rastreador bajo demanda.

Solución de problemas

Para solucionar problemas relacionados con los buckets de Amazon S3 que utilizan una puerta de enlace de la VPC, consulte ¿Por qué no puedo conectarme a un bucket de S3 con un punto de enlace de la VPC de la gateway?