Añadir un punto de conexión de desarrollo. - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Añadir un punto de conexión de desarrollo.

Utilice puntos de enlace de desarrollo para desarrollar y probar iterativamente los scripts de extracción, transformación y carga (ETL) en AWS Glue. Puede añadir un punto de enlace de desarrollo mediante la consola de AWS Glue o la AWS Command Line Interface (AWS CLI).

Añadir un punto de enlace de desarrollo (consola)
  1. Abra la consola de AWS Glue en https://console.aws.amazon.com/glue/. Inicie sesión como usuario que tenga el permiso de IAM glue:CreateDevEndpoint.

  2. En el panel de navegación, elija Dev endpoints (Puntos de enlace de desarrollo) y, a continuación, elija Add Endpoint (Añadir punto de enlace).

  3. Siga los pasos del asistente AWS GlueAdd endpoint (Añadir punto de enlace) de para proporcionar las propiedades necesarias y poder crear un punto de enlace. Especifique un rol de IAM que permita el acceso a los datos.

    Si decide proporcionar una clave pública de SSH al crear el punto de enlace de desarrollo, guarde la clave privada de SSH para obtener acceso más adelante al punto de enlace de desarrollo.

  4. Elija Finish para completar el asistente. A continuación, compruebe el estado del punto de enlace de desarrollo en la consola. Cuando el estado cambia a READY, el punto de enlace de desarrollo está listo para su uso.

    Al crear el punto de enlace, puede proporcionar la siguiente información opcional:

    Configuración de seguridad

    Para especificar opciones de cifrado en reposo, agregue una configuración de seguridad a un punto de enlace de desarrollo.

    Tipo de empleado

    El tipo de proceso de trabajo predefinido que se asigna al punto de enlace de desarrollo. Acepta un valor de Standard, G.1X, o G.2X.

    • Para el tipo de proceso de trabajo Standard, cada proceso de trabajo proporciona 4 vCPU, 16 GB de memoria, un disco de 50 GB y 2 ejecutores por proceso de trabajo.

    • Para el tipo de proceso de trabajo G.1X, cada proceso de trabajo se asocia a 1 DPU (4 vCPU, 16 GB de memoria y un disco de 64 GB) y proporciona 1 ejecutor por proceso de trabajo. Le recomendamos este tipo de proceso de trabajo para trabajos con un uso intensivo de la memoria.

    • Para el tipo de proceso de trabajo G.2X, cada proceso de trabajo se asocia a 2 DPU (8 vCPU, 32 GB de memoria y un disco de 128 GB) y proporciona 1 ejecutor por proceso de trabajo. Le recomendamos este tipo de proceso de trabajo para trabajos con un uso intensivo de la memoria.

    Number of workers (Número de procesos de trabajo)

    El número de procesos de trabajo de un definido workerType que se asignan al punto de enlace de desarrollo. Este campo solo está disponible cuando elige el tipo de proceso G.1X o G.2X.

    Data processing units (DPUs) (Unidades de procesamiento de datos (DPU))

    Número de unidades DPU que utiliza AWS Glue para el punto de enlace de desarrollo. El número debe ser mayor que 1.

    Ruta de la biblioteca Python

    Rutas de Amazon Simple Storage Service (Amazon S3) separadas por comas a las bibliotecas de Python que requiere el script. Varios valores deben ser rutas completas separadas por una coma (,). Solo se admiten archivos individuales, no una ruta de directorio.

    nota

    Solo puede utilizar bibliotecas Python puras. Todavía no se admiten las bibliotecas que se basan en las extensiones de C, como la biblioteca de análisis de datos Python Pandas.

    Ruta de archivos JAR dependientes

    Rutas de Amazon S3 separadas por comas a archivos JAR que requiere el script.

    nota

    Actualmente, solo puede utilizar bibliotecas Java o Scala (2.11) puras.

    Versión de AWS Glue

    Especifica las versiones de Python y Apache Spark que se van a utilizar. El valor predeterminado es la versión de AWS Glue 1.0 (Python versión 3 y Spark versión 2.4). Para obtener más información, consulte la Glue version job property.

    Etiquetas

    Etiquete su punto de enlace de desarrollo con una clave de etiqueta y un valor de etiqueta opcional. Una vez que se crean las claves de etiquetas, son de solo lectura. Utilice etiquetas en algunos recursos para que le resulte más fácil organizarlos e identificarlos. Para más información, consulte Etiquetas de AWS en AWS Glue.

    Interfaz de usuario de Spark

    Habilita el uso de la interfaz del usuario de Spark para monitorear las aplicaciones de Spark que se ejecutan en este punto de enlace de desarrollo. Para obtener más información, consulte Habilitación de la interfaz de usuario web de Apache Spark para puntos de conexión de desarrollo.

    Uso de AWS Glue Data Catalog como metaalmacén de Hive [en Catalog Options (Opciones de catálogo)]

    Le permite utilizar AWS Glue Data Catalog como metaalmacén de Spark Hive.

Añadir un punto de enlace de desarrollo (AWS CLI)
  1. En una ventana de línea de comandos, escriba un comando similar al siguiente.

    aws glue create-dev-endpoint --endpoint-name "endpoint1" --role-arn "arn:aws:iam::account-id:role/role-name" --number-of-nodes "3" --glue-version "1.0" --arguments '{"GLUE_PYTHON_VERSION": "3"}' --region "region-name"

    Este comando especifica la versión de AWS Glue 1.0. Dado que esta versión es compatible con Python 2 y Python 3, puede utilizar el parámetro arguments para indicar la versión de Python deseada. Si se omite el parámetro glue-version, se presupone la versión de AWS Glue 0.9. Para obtener más información acerca de las versiones de AWS Glue, consulte Glue version job property.

    Para obtener información sobre los parámetros adicionales de la línea de comandos, consulte create-dev-endpointla Referencia deAWS CLI comandos.

  2. (Opcional) Escriba el siguiente comando para comprobar el estado del punto de enlace de desarrollo. Cuando el estado cambia a READY, el punto de enlace de desarrollo está listo para su uso.

    aws glue get-dev-endpoint --endpoint-name "endpoint1"