Instalación de módulos adicionales de Python en AWS Glue 2.0 (o posterior) con pip Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue Inclusión de archivos de Python con características nativas de PySpark Scripts de programación que utilizan transformaciones visuales Compresión de bibliotecas Bibliotecas en cuadernos Bibliotecas en DevEndpoints Bibliotecas en trabajos Analizar las dependencias de Python Módulos de Python que ya se proporcionaron en AWS

Uso de bibliotecas de Python con AWS Glue

Puede instalar módulos y bibliotecas adicionales de Python para su uso con ETL de AWS Glue. Para AWS Glue 2.0 y versiones posteriores, AWS Glue utiliza el instalador de paquetes de Python (pip3) para instalar los módulos adicionales que utilizará ETL de AWS Glue. AWS Glue ofrece varias opciones para incorporar los módulos de Python adicionales a su entorno de trabajo de AWS Glue. Puede usar el parámetro “—additional-python-modules” para introducir módulos mediante archivos Wheel de Python, un archivo de requisitos (requirement.txt, AWS Glue 5.0 y versiones posteriores) o una lista de módulos de Python separados por comas.

Temas

Instalación de módulos adicionales de Python en AWS Glue 2.0 (o posterior) con pip
Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue
Inclusión de archivos de Python con características nativas de PySpark
Scripts de programación que utilizan transformaciones visuales
Compresión de bibliotecas para inclusión
Carga de bibliotecas de Python en cuadernos de AWS Glue Studio
Carga de bibliotecas Python en un punto de conexión de desarrollo en AWS Glue 0.9/1.0
Uso de bibliotecas Python en un trabajo o JobRun
Analizar de forma proactiva las dependencias de Python
Módulos de Python que ya se proporcionaron en AWS

Compatibilidad de las versiones de Glue y métodos de instalación
Versión de Glue	Versión de Python	Imagen base	Versión de glibc	Métodos de instalación compatibles
5.0	3.11	Amazon Linux 2023 (AL2023)	2.34	(Recomendado) Comprimir el entorno Python en un solo archivo Wheel Instalación de bibliotecas de Python adicionales en AWS Glue 5.0 o versiones posteriores mediante requirements.txt Instalar bibliotecas de Python adicionales con Wheel Instalación de módulos adicionales de Python en AWS Glue 2.0 (o posterior) con pip
4.0	3.10	Amazon Linux 2 (AL2)	2.26	Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue
3.0	3.7	Amazon Linux 2 (AL2)	2.26	Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue
2.0	3.7	Amazon Linux AMI (AL1)	2.17	Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue
1.0	3.6	Amazon Linux AMI (AL1)	2.17	Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue
0.9	2.7	Amazon Linux AMI (AL1)	2.17	Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue

Según el modelo de responsabilidad compartida de AWS, usted es responsable de la administración de los módulos y las bibliotecas de Python adicionales y las dependencias que utilice con sus trabajos de ETL de AWS Glue. Esto incluye la aplicación de actualizaciones y parches de seguridad.

AWS Glue no admite la compilación de código nativo en el entorno de trabajo. No obstante, los trabajos de AWS Glue se ejecutan en un entorno de Linux administrado por Amazon. Es posible que pueda proporcionar las dependencias nativas en forma compilada a través de un archivo Wheel de Python. Consulte la tabla anterior para ver los detalles de compatibilidad de las versiones de AWS Glue.

Si las dependencias de Python están relacionadas de modo transitivo con código compilado nativo, es posible que se encuentre con la siguiente limitación: AWS Glue no admite la compilación de código nativo en el entorno de trabajo. No obstante, los trabajos de AWS Glue se ejecutan en un entorno de Linux administrado por Amazon. Es posible que pueda proporcionar las dependencias nativas en forma compilada a través de una distribución Wheel. Consulte la tabla anterior para ver los detalles de compatibilidad de las versiones de AWS Glue.

importante

El uso de dependencias incompatibles puede provocar problemas de tiempo de ejecución, especialmente en el caso de las bibliotecas con extensiones nativas que deben coincidir con la arquitectura y las bibliotecas del sistema del entorno de destino. Cada versión de AWS Glue se ejecuta en una versión específica de Python con bibliotecas y configuraciones de sistema preinstaladas.

Instalación de módulos adicionales de Python en AWS Glue 2.0 (o posterior) con pip

AWS Glue utiliza el instalador de paquetes de Python (pip3) para instalar los módulos adicionales que serán utilizados por AWS Glue ETL. Puede utilizar el parámetro --additional-python-modules con una lista de módulos de Python separados por comas para agregar un nuevo módulo o cambiar la versión de un módulo existente. Puede instalar distribuciones personalizadas de una biblioteca cargando la distribución en Amazon S3, y luego incluir la ruta al objeto de Amazon S3 en la lista de módulos.

Puede pasar opciones adicionales a pip3 con el parámetro --python-modules-installer-option. Por ejemplo, puede pasar "--upgrade" para actualizar los paquetes especificados por "--additional-python-modules". Para ver más ejemplos, consulte Creación de módulos Python desde un archivo wheel para cargas de trabajo de ETL de Spark mediante AWS Glue 2.0.

AWS Glue admite la instalación de paquetes de Python personalizados mediante archivos Wheel (.whl) almacenados en Amazon S3. Para incluir los archivos Wheel en sus trabajos de AWS Glue, añada al parámetro del trabajo de --additional-python-modules una lista separada por comas de los archivos Wheel almacenados en S3. Por ejemplo:


--additional-python-modules s3://amzn-s3-demo-bucket/path/to/package-1.0.0-py3-none-any.whl,s3://your-bucket/path/to/another-package-2.1.0-cp311-cp311-linux_x86_64.whl

Este enfoque también es válido cuando se necesitan distribuciones personalizadas o paquetes con dependencias nativas compilados previamente para el sistema operativo correcto. Para ver más ejemplos, consulte Creación de módulos Python a partir de un archivo Wheel para cargas de trabajo de ETL de Spark mediante AWS Glue 2.0.

Debe especificar --additional-python-modules en el campo Parámetros del trabajo de la consola de AWS Glue, o bien modificar los argumentos del trabajo en el SDK de AWS. Para obtener más información sobre la configuración de parámetros de trabajo, consulte Uso de parámetros de trabajo en los trabajos de AWS Glue.

En AWS Glue 5.0, puede proporcionar el estándar de facto requirements.txt para gestionar las dependencias de las bibliotecas de Python. Para ello, proporcione los dos parámetros de trabajo siguientes:

Clave: --python-modules-installer-option

Valor: -r
Clave: --additional-python-modules

Valor: s3://path_to_requirements.txt

Los nodos de AWS Glue 5.0 cargan inicialmente las bibliotecas de Python especificadas en requirements.txt.

A continuación, verá un ejemplo de requirements.txt:


awswrangler==3.9.1
elasticsearch==8.15.1
PyAthena==3.9.0
PyMySQL==1.1.1
PyYAML==6.0.2
pyodbc==5.2.0
pyorc==0.9.0
redshift-connector==2.1.3
scipy==1.14.1
scikit-learn==1.5.2
SQLAlchemy==2.0.36

importante

Evite las versiones de biblioteca desancladas en su archivo requirements.txt para asegurarse de que dispone de un entorno de AWS Glue fiable y determinista para los trabajos.

Cuando utiliza Wheel para las dependencias directas, puede incluir una versión incompatible de sus dependencias transitivas si no están ancladas correctamente. Como práctica recomendada, todas las versiones de la biblioteca deberían estar ancladas para mantener la coherencia en los trabajos de AWS Glue. AWS Glue recomienda comprimir el entorno de Python en un archivo Wheel para garantizar la coherencia y la fiabilidad de la carga de trabajo de producción.

Para actualizar o añadir un nuevo módulo de Python, AWS Glue permite enviar el parámetro --additional-python-modules con una lista de módulos de Python separados por comas como valores. Por ejemplo, para actualizar o añadir un nuevo módulo scikit-learn, utilice la siguiente clave-valor: "--additional-python-modules", "scikit-learn==0.21.3". Tiene dos opciones para configurar directamente los módulos de Python.

Módulo Python anclado (recomendado)

"--additional-python-modules", "scikit-learn==0.21.3,ephem==4.1.6"
Módulo Python desanclado: (no se recomienda para cargas de trabajo de producción)

"--additional-python-modules", "scikit-learn>==0.20.0,ephem>=4.0.0"

OR

"--additional-python-modules", "scikit-learn,ephem"

importante

Al configurar los módulos de Python directamente en --additional-python-modules, AWS Glue recomienda utilizar versiones de biblioteca ancladas para garantizar la coherencia en el entorno de trabajo de AWS Glue. El uso de versiones de biblioteca desancladas extrae la última versión de los módulos de Python; sin embargo, esto puede introducir cambios importantes o un módulo de Python incompatible, lo que provoca un fallo en el trabajo debido a un error de instalación de Python en el entorno de trabajo de AWS Glue. Recomendamos a los clientes que no utilicen versiones de bibliotecas desancladas para la carga de trabajo de producción. Como práctica recomendada, AWS Glue sugiere comprimir el entorno de Python en un archivo Wheel para garantizar la coherencia y la fiabilidad de la carga de trabajo de producción.

Prácticas recomendadas para instalar bibliotecas de Python adicionales en AWS Glue

(Recomendado) Comprimir el entorno Python en un solo archivo Wheel

Para un entorno seguro y coherente, AWS Glue recomienda hacer una instantánea y comprimir el entorno de Python en un archivo Wheel. La ventaja de esta acción es que se bloqueará tanto el entorno de Python para los módulos de Python de referencia como sus dependencias transitivas. Esto garantiza que su trabajo de AWS Glue no se vea afectado cuando un repositorio principal, como PyPI o dependencies, introduzca actualizaciones incompatibles.

Este archivo se puede usar luego en su trabajo de AWS Glue con el indicador --additional-python-modules.

importante

Debe ejecutar el siguiente script en un entorno similar al de la versión de AWS Glue que está ejecutando. Consulte la tabla de detalles del entorno de Glue y asegúrese de utilizar la misma imagen base del sistema operativo y la misma versión de Python.


#!/bin/bash
set -e
REQUIREMENTS_FILE="requirements.txt"
FINAL_WHEEL_OUTPUT_DIRECTORY="."
PACKAGE_NAME=$(basename "$(pwd)")
PACKAGE_VERSION="0.1.0"
# Help message
show_help() {
    echo "Usage: $0 [options]"
    echo ""
    echo "Options:"
    echo "  -r, --requirements FILE   Path to requirements.txt file (default: requirements.txt)"
    echo "  -o, --wheel-output DIR    Output directory for final wheel (default: current directory)"
    echo "  -n, --name NAME           Package name (default: current directory name)"
    echo "  -v, --version VERSION     Package version (default: 0.1.0)"
    echo "  -h, --help                Show this help message"
    echo "  -g, --glue-version        Glue version (required)"
    echo ""
    echo "Example:"
    echo "  $0 -r custom-requirements.txt -o dist -n my_package -v 1.2.3 -g 4.0"
}
# Parse command line arguments
while [[ $# -gt 0 ]]; do
    key="$1"
    case $key in
    -r | --requirements)
        REQUIREMENTS_FILE="$2"
        shift 2
        ;;
    -o | --wheel-output)
        FINAL_WHEEL_OUTPUT_DIRECTORY="$2"
        shift 2
        ;;
    -n | --name)
        PACKAGE_NAME="$2"
        shift 2
        ;;
    -v | --version)
        PACKAGE_VERSION="$2"
        shift 2
        ;;
    -g | --glue-version)
        GLUE_VERSION="$2"
        shift 2
        ;;
    -h | --help)
        show_help
        exit 0
        ;;
    *)
        echo "Unknown option: $1"
        show_help
        exit 1
        ;;
    esac
done
# If package name has dashes, convert to underscores and notify user. We need to check this since we cant import a package with dashes.
if [[ "$PACKAGE_NAME" =~ "-" ]]; then
    echo "Warning: Package name '$PACKAGE_NAME' contains dashes. Converting to underscores."
    PACKAGE_NAME=$(echo "$PACKAGE_NAME" | tr '-' '_')
fi
UBER_WHEEL_NAME="${PACKAGE_NAME}-${PACKAGE_VERSION}-py3-none-any.whl"
# Check if glue version is provided
if [ -z "$GLUE_VERSION" ]; then
    echo "Error: Glue version is required."
    exit 1
fi
# Validate version format (basic check)
if [[ ! "$PACKAGE_VERSION" =~ ^[0-9]+\.[0-9]+\.[0-9]+$ ]] && [[ ! "$PACKAGE_VERSION" =~ ^[0-9]+\.[0-9]+$ ]]; then
    echo "Warning: Version '$PACKAGE_VERSION' doesn't follow semantic versioning (x.y.z or x.y)"
fi
# Check if requirements file exists
if [ ! -f "$REQUIREMENTS_FILE" ]; then
    echo "Error: Requirements file '$REQUIREMENTS_FILE' not found."
    exit 1
fi
# Get relevant platform tags/python versions based on glue version
if [[ "$GLUE_VERSION" == "5.0" ]]; then
    PYTHON_VERSION="3.11"
    GLIBC_VERSION="2.34"
elif [[ "$GLUE_VERSION" == "4.0" ]]; then
    PYTHON_VERSION="3.10"
    GLIBC_VERSION="2.26"
elif [[ "$GLUE_VERSION" == "3.0" ]]; then
    PYTHON_VERSION="3.7"
    GLIBC_VERSION="2.26"
elif [[ "$GLUE_VERSION" == "2.0" ]]; then
    PYTHON_VERSION="3.7"
    GLIBC_VERSION="2.17"
elif [[ "$GLUE_VERSION" == "1.0" ]]; then
    PYTHON_VERSION="3.6"
    GLIBC_VERSION="2.17"
elif [[ "$GLUE_VERSION" == "0.9" ]]; then
    PYTHON_VERSION="2.7"
    GLIBC_VERSION="2.17"
else
    echo "Error: Unsupported glue version '$GLUE_VERSION'."
    exit 1
fi
echo "Using Glue version $GLUE_VERSION"
echo "Using Glue python version $PYTHON_VERSION"
echo "Using Glue glibc version $GLIBC_VERSION"
PIP_PLATFORM_FLAG=""
is_glibc_compatible() {
    # assumes glibc version in the form of major.minor (ex: 2.17)
    # glue glibc must be >= platform glibc
    local glue_glibc_version="$GLIBC_VERSION"
    local platform_glibc_version="$1"
    # 2.27 (platform) can run on 2.27 (glue)
    if [[ "$platform_glibc_version" == "$glue_glibc_version" ]]; then
        return 0
    fi
    local glue_glibc_major="${glue_glibc_version%%.*}"
    local glue_glibc_minor="${glue_glibc_version#*.}"
    local platform_glibc_major="${platform_glibc_version%%.*}"
    local platform_glibc_minor="${platform_glibc_version#*.}"
    # 3.27 (platform) cannot run on 2.27 (glue)
    if [[ "$platform_glibc_major" -gt "$glue_glibc_major" ]]; then
        return 1
    fi
    # 2.34 (platform) cannot run on 2.27 (glue)
    if [[ "$platform_glibc_major" -eq "$glue_glibc_major" ]] && [[ "$platform_glibc_minor" -gt "$glue_glibc_minor" ]]; then
        return 1
    fi
    # 2.17 (platform) can run on 2.27 (glue)
    return 0
}
PIP_PLATFORM_FLAG=""
if is_glibc_compatible "2.17"; then
    PIP_PLATFORM_FLAG="${PIP_PLATFORM_FLAG} --platform manylinux2014_x86_64"
fi
if is_glibc_compatible "2.28"; then
    PIP_PLATFORM_FLAG="${PIP_PLATFORM_FLAG} --platform manylinux_2_28_x86_64"
fi
if is_glibc_compatible "2.34"; then
    PIP_PLATFORM_FLAG="${PIP_PLATFORM_FLAG} --platform manylinux_2_34_x86_64"
fi
if is_glibc_compatible "2.39"; then
    PIP_PLATFORM_FLAG="${PIP_PLATFORM_FLAG} --platform manylinux_2_39_x86_64"
fi
echo "Using pip platform flags: $PIP_PLATFORM_FLAG"
# Convert to absolute paths
REQUIREMENTS_FILE=$(realpath "$REQUIREMENTS_FILE")
FINAL_WHEEL_OUTPUT_DIRECTORY=$(realpath "$FINAL_WHEEL_OUTPUT_DIRECTORY")
TEMP_WORKING_DIR=$(mktemp -d)
VENV_DIR="${TEMP_WORKING_DIR}/.build_venv"
WHEEL_OUTPUT_DIRECTORY="${TEMP_WORKING_DIR}/wheelhouse"
# Cleanup function
cleanup() {
    echo "Cleaning up temporary files..."
    rm -rf "$TEMP_WORKING_DIR"
}
trap cleanup EXIT
echo "========================================="
echo "Building wheel for $PACKAGE_NAME with all dependencies from $REQUIREMENTS_FILE"
echo "========================================="
# Determine Python executable to use consistently
PYTHON_EXEC=$(which python3 2>/dev/null || which python 2>/dev/null)
if [ -z "$PYTHON_EXEC" ]; then
    echo "Error: No Python executable found"
    exit 1
fi
echo "Using Python: $PYTHON_EXEC"
echo ""
# Install build requirements
echo "Step 1/5: Installing build tools..."
echo "----------------------------------------"
"$PYTHON_EXEC" -m pip install --upgrade pip build wheel setuptools
echo "✓ Build tools installed successfully"
echo ""
# Create a virtual environment for building
echo "Step 2/5: Creating build environment..."
echo "----------------------------------------"
"$PYTHON_EXEC" -m venv "$VENV_DIR"
# Check if virtual environment was created successfully
if [ ! -f "$VENV_DIR/bin/activate" ]; then
    echo "Error: Failed to create virtual environment"
    exit 1
fi
source "$VENV_DIR/bin/activate"
# Install pip-tools for dependency resolution
"$VENV_DIR/bin/pip" install pip-tools
echo "✓ Build environment created successfully"
echo ""
# Compile requirements to get all transitive dependencies
GLUE_PIP_ARGS="$PIP_PLATFORM_FLAG --python-version $PYTHON_VERSION --only-binary=:all:"
echo "Step 3/5: Resolving all dependencies..."
echo "----------------------------------------"
if ! "$VENV_DIR/bin/pip-compile" --pip-args "$GLUE_PIP_ARGS" --no-emit-index-url --output-file "$TEMP_WORKING_DIR/.compiled_requirements.txt" "$REQUIREMENTS_FILE"; then
    echo "Error: Failed to resolve dependencies. Check for conflicts in $REQUIREMENTS_FILE"
    exit 1
fi
echo "✓ Dependencies resolved successfully"
echo ""
# Download all wheels for dependencies
echo "Step 4/5: Downloading all dependency wheels..."
echo "----------------------------------------"
"$VENV_DIR/bin/pip" download -r "$TEMP_WORKING_DIR/.compiled_requirements.txt" -d "$WHEEL_OUTPUT_DIRECTORY" $GLUE_PIP_ARGS
# Check if any wheels were downloaded
if [ ! "$(ls -A "$WHEEL_OUTPUT_DIRECTORY")" ]; then
    echo "Error: No wheels were downloaded. Check your requirements file."
    exit 1
fi
# Count downloaded wheels (using find instead of ls for better handling)
WHEEL_COUNT=$(find "$WHEEL_OUTPUT_DIRECTORY" -name "*.whl" -type f | wc -l | tr -d ' ')
echo "✓ Downloaded $WHEEL_COUNT dependency wheels successfully"
echo ""
# Create a single uber wheel with all dependencies
echo "Step 5/5: Creating uber wheel with all dependencies included..."
echo "----------------------------------------"
# Create a temporary directory for the uber wheel
UBER_WHEEL_DIR="$TEMP_WORKING_DIR/uber"
mkdir -p "$UBER_WHEEL_DIR"
# Create the setup.py file with custom install command
cat >"$UBER_WHEEL_DIR/setup.py" <<EOF
from setuptools import setup, find_packages
import setuptools.command.install
import os
import glob
import subprocess
import sys
setup(
    name='${PACKAGE_NAME}',
    version='${PACKAGE_VERSION}',
    description='Bundle containing dependencies for ${PACKAGE_NAME}',
    author='Package Builder',
    author_email='builder@example.com',
    packages=['${PACKAGE_NAME}'],  # Include the package directory to hold wheels
    include_package_data=True,
    package_data={
        '${PACKAGE_NAME}': ['wheels/*.whl'],  # Include wheels in the package directory
    }
)
EOF
# Create a MANIFEST.in file to include all wheels
cat >"$UBER_WHEEL_DIR/MANIFEST.in" <<EOF
recursive-include ${PACKAGE_NAME}/wheels *.whl
EOF
# Create an __init__.py file that imports all the bundled wheel files (no auto-install logic)
mkdir -p "$UBER_WHEEL_DIR/${PACKAGE_NAME}"
cat >"$UBER_WHEEL_DIR/${PACKAGE_NAME}/__init__.py" <<EOF
"""
${PACKAGE_NAME} - dependencies can be installed at runtime using the $(load_wheels) function
"""
from pathlib import Path
import logging
import subprocess
import sys
__version__ = "${PACKAGE_VERSION}"

def load_wheels(log_level=logging.INFO):
    logger = logging.getLogger(__name__)
    handler = logging.StreamHandler(sys.stdout)
    formatter = logging.Formatter("[Glue Python Wheel Installer] %(asctime)s - %(name)s - %(levelname)s - %(message)s")
    handler.setFormatter(formatter)
    logger.addHandler(handler)
    logger.setLevel(log_level)
    logger.info("Starting wheel installation process")
    package_dir = Path(__file__).parent.absolute()
    wheels_dir = package_dir / "wheels"
    logger.debug(f"Package directory: {package_dir}")
    logger.debug(f"Looking for wheels in: {wheels_dir}")
    if not wheels_dir.exists():
        logger.error(f"Wheels directory not found: {wheels_dir}")
        return False
    wheel_files = list(wheels_dir.glob("*.whl"))
    if not wheel_files:
        logger.warning(f"No wheels found in: {wheels_dir}")
        return False
    logger.info(f"Found {len(wheel_files)} wheels")
    wheel_file_paths = [str(wheel_file) for wheel_file in wheel_files]
    logger.info(f"Installing {wheel_file_paths}...")
    try:
        result = subprocess.run(
            [sys.executable, "-m", "pip", "install", *wheel_file_paths], check=True, capture_output=True, text=True
        )
        logger.info(f"✓ Successfully installed wheel files")
        logger.debug(f"pip output: {result.stdout}")
    except subprocess.CalledProcessError as e:
        error_msg = f"Failed to install wheel files"
        logger.error(f"✗ {error_msg}: {e}")
        if e.stderr:
            logger.error(f"Error details: {e.stderr}")
        return False
    logger.info("All wheels installed successfully")
    return True
EOF
cat >"$UBER_WHEEL_DIR/${PACKAGE_NAME}/auto.py" <<EOF
"""
${PACKAGE_NAME} - utility module that allows users to automatically install modules by adding $(import ${PACKAGE_NAME}.auto) to the top of their script
"""
from ${PACKAGE_NAME} import load_wheels
load_wheels()
EOF
# Copy all wheels to the uber wheel directory
mkdir -p "$UBER_WHEEL_DIR/${PACKAGE_NAME}/wheels"
cp "$WHEEL_OUTPUT_DIRECTORY"/*.whl "$UBER_WHEEL_DIR/${PACKAGE_NAME}/wheels/"
# Build the uber wheel
echo "Building uber wheel package..."
# Install build tools in the current environment
"$VENV_DIR/bin/pip" install build
if ! (cd "$UBER_WHEEL_DIR" && "$VENV_DIR/bin/python" -m build --skip-dependency-check --wheel --outdir .); then
    echo "Error: Failed to build uber wheel"
    exit 1
fi
# Ensure output directory exists
mkdir -p "$FINAL_WHEEL_OUTPUT_DIRECTORY"
# Copy the uber wheel to the output directory
FINAL_WHEEL_OUTPUT_PATH="$FINAL_WHEEL_OUTPUT_DIRECTORY/$UBER_WHEEL_NAME"
# Find the generated wheel (should be only one in the root directory)
GENERATED_WHEEL=$(find "$UBER_WHEEL_DIR" -maxdepth 1 -name "*.whl" -type f | head -1)
if [ -z "$GENERATED_WHEEL" ]; then
    echo "Error: No uber wheel was generated"
    exit 1
fi
cp "$GENERATED_WHEEL" "$FINAL_WHEEL_OUTPUT_PATH"
# Get final wheel size for user feedback
WHEEL_SIZE=$(du -h "$FINAL_WHEEL_OUTPUT_PATH" | cut -f1)
echo "✓ Uber wheel created successfully!"
echo ""
echo "========================================="
echo "BUILD COMPLETED SUCCESSFULLY!"
echo "========================================="
echo "Final wheel: $FINAL_WHEEL_OUTPUT_PATH"
echo "Wheel size: $WHEEL_SIZE"
echo "Dependencies included: $WHEEL_COUNT packages"
echo ""
echo "To install the bundle, run:"
echo "  pip install $FINAL_WHEEL_OUTPUT_PATH"
echo ""
echo "After installation, you can verify that the bundle works by running:"
echo "  python -c \"import ${PACKAGE_NAME}; ${PACKAGE_NAME}.load_wheels()\""
echo "  or "
echo "  python -c \"import ${PACKAGE_NAME}.auto\""
echo "========================================="


./wheel_packager.sh -r <path to requirements.txt> -g <glue version> -o <wheel output directory> -n <package name> -v <wheel version>


--additional-python-modules s3://your-bucket/path/to/package_with_dependencies-1.0.0-py3-none-any.whl


# Option 1: automatic installation via import
import package_with_dependencies.auto
        
# Option 2: manual installation
from package_with_dependencies import load_wheels
load_wheels()

Inclusión de archivos de Python con características nativas de PySpark

AWS Glue utiliza PySpark para incluir archivos de Python en trabajos de ETL de AWS Glue. Podrá utilizar --additional-python-modules para administrar las dependencias cuando esté disponible. Puede utilizar el parámetro de trabajo --extra-py-files para incluir archivos de Python. Las dependencias deben estar alojadas en Amazon S3 y el valor del argumento debe ser una lista delimitada por comas de rutas de Amazon S3 sin espacios. Esta funcionalidad se comporta igual que la administración de dependencias de Python que se utilizaría con Spark. Para obtener más información sobre la administración de dependencias de Python en Spark, consulte la página Using PySpark Native Features (Uso de características nativas de PySpark) en la documentación de Apache Spark. --extra-py-files resulta útil en los casos en los que el código adicional no está empaquetado, o bien cuando se migra un programa de Spark con una cadena de herramientas existente para administrar las dependencias. Para que las herramientas para dependencias sean mantenibles, deberá agrupar las dependencias antes del envío.

Scripts de programación que utilizan transformaciones visuales

Al crear un trabajo de AWS Glue con la interfaz visual de AWS Glue Studio, puede transformar los datos con nodos administrados de transformación de datos y transformaciones visuales personalizadas. Par más información sobre los nodos administrados de transformación de datos, consulte Transformación de datos con transformaciones administradas de AWS Glue. Para obtener más información sobre las transformaciones visuales personalizadas, consulte Transformación de datos con transformaciones visuales personalizadas . Los scripts que utilizan transformaciones visuales solo se pueden generar cuando el Lenguaje del trabajo está establecido para que utilice Python.

Al generar un trabajo de AWS Glue con transformaciones visuales, AWS Glue Studio incluirá estas transformaciones en el entorno de tiempo de ejecución con el parámetro --extra-py-files en la configuración del trabajo. Para obtener más información acerca de la configuración de parámetros de trabajos, consulte Uso de los parámetros de trabajo en los trabajos de AWS Glue. Cuando se realizan cambios en un script generado o un entorno de tiempo de ejecución, necesitará conservar la configuración del trabajo para que script se ejecute de manera exitosa.

Compresión de bibliotecas para inclusión

Salvo que una biblioteca se encuentre en un único archivo .py, deberá empaquetarse en un archivo .zip. El directorio del paquete debe encontrarse en la raíz del archivo y debe contener un archivo __init__.py para el paquete. Posteriormente, Python podrá importar el paquete de la forma habitual.

Si la biblioteca se compone solamente de un único módulo de Python en un archivo .py, no será necesario comprimirlo en un archivo .zip.

Carga de bibliotecas de Python en cuadernos de AWS Glue Studio

Para especificar las bibliotecas de Python en los cuadernos de AWS Glue Studio, consulte Installing additional Python modules.

Carga de bibliotecas Python en un punto de conexión de desarrollo en AWS Glue 0.9/1.0

Si utiliza diferentes conjuntos de bibliotecas para distintos scripts de ETL, puede configurar puntos de enlace de desarrollo independientes para cada conjunto o bien, puede sobrescribir los archivos .zip de la biblioteca que carga el punto de enlace de desarrollo cada vez que usted cambia de script.

Puede utilizar la consola con el fin de especificar uno o varios archivos .zip para un punto de enlace de desarrollo cuando lo cree. Después de asignar un nombre y un rol de IAM, seleccione Script Libraries and job parameters (Bibliotecas de script y parámetros de trabajo) (opcional) y escriba la ruta de Amazon S3 completa para los archivos .zip de la biblioteca en el cuadro Python library path (Ruta de la biblioteca Python). Por ejemplo:


s3://bucket/prefix/site-packages.zip

También puede especificar varias rutas completas a los archivos; para ello, sepárelas con comas pero sin espacios, como sigue:


s3://bucket/prefix/lib_A.zip,s3://bucket_B/prefix/lib_X.zip

Si actualiza estos archivos .zip más adelante, puede utilizar la consola para volver a importarlos en el punto de enlace de desarrollo. Vaya al punto de enlace del desarrollador que corresponda, marque la casilla junto al mismo y seleccione Update ETL libraries (Actualizar bibliotecas de ETL) desde el menú Action (Acción).

De forma similar, puede especificar archivos de la biblioteca mediante las API de AWS Glue. Cuando crea un punto de enlace de desarrollo al invocar Acción CreateDevEndpoint (Python: create_dev_endpoint), puede especificar una o varias rutas completas para las bibliotecas en el parámetro ExtraPythonLibsS3Path, en una llamada con un formato similar al siguiente:



dep = glue.create_dev_endpoint(
             EndpointName="testDevEndpoint",
             RoleArn="arn:aws:iam::123456789012",
             SecurityGroupIds="sg-7f5ad1ff",
             SubnetId="subnet-c12fdba4",
             PublicKey="ssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQCtp04H/y...",
             NumberOfNodes=3,
             ExtraPythonLibsS3Path="s3://bucket/prefix/lib_A.zip,s3://bucket_B/prefix/lib_X.zip")

Cuando actualice un punto de enlace de desarrollo, también puede actualizar las bibliotecas que carga con un objeto DevEndpointCustomLibraries y si establece el parámetro UpdateEtlLibraries en True a la hora de invocar UpdateDevEndpoint (update_dev_endpoint).

Uso de bibliotecas Python en un trabajo o JobRun

Cuando crea un trabajo nuevo en la consola, puede especificar uno o más archivos .zip de la biblioteca si selecciona Script Libraries and job parameters (Bibliotecas de script y parámetros de trabajo) (opcional) y escribe las rutas completas de la biblioteca de Amazon S3, igual que cuando crea un punto de enlace de desarrollo:


s3://bucket/prefix/lib_A.zip,s3://bucket_B/prefix/lib_X.zip

Si invoca CreateJob (create_job), puede especificar una o varias rutas completas para las bibliotecas predeterminadas mediante el parámetro predeterminado --extra-py-files , como se indica a continuación:


job = glue.create_job(Name='sampleJob',
                      Role='Glue_DefaultRole',
                      Command={'Name': 'glueetl',
                               'ScriptLocation': 's3://my_script_bucket/scripts/my_etl_script.py'},
                      DefaultArguments={'--extra-py-files': 's3://bucket/prefix/lib_A.zip,s3://bucket_B/prefix/lib_X.zip'})

Posteriormente, cuando inicie un JobRun, puede anular el valor predeterminado de la biblioteca con otro distinto:


runId = glue.start_job_run(JobName='sampleJob',
                           Arguments={'--extra-py-files': 's3://bucket/prefix/lib_B.zip'})

Analizar de forma proactiva las dependencias de Python

Para identificar de forma proactiva los posibles problemas de dependencia antes de implementarlos en AWS Glue, puede usar la herramienta de análisis de dependencias para cotejar sus paquetes de Python con el entorno de AWS Glue de destino.

AWS proporciona una herramienta de análisis de dependencias de Python de código abierto diseñada específicamente para entornos de AWS Glue. Esta herramienta está disponible en el repositorio de muestras de AWS Glue y se puede utilizar localmente para validar las dependencias antes de la implementación.

Este análisis ayuda a garantizar que sus dependencias sigan la práctica recomendada de anclar todas las versiones de la biblioteca para lograr implementaciones de producción coherentes. Para obtener más información, consulte el archivo README de la herramienta.

El analizador de dependencias Python de AWS Glue ayuda a identificar las dependencias desancladas y los conflictos de versiones al simular la instalación de pip con restricciones específicas de la plataforma que se adaptan al entorno de AWS Glue objetivo.


# Analyze a single Glue job
python glue_dependency_analyzer.py -j my-glue-job

# Analyze multiple jobs with specific AWS configuration
python glue_dependency_analyzer.py -j job1 -j job2 --aws-profile production --aws-region us-west-2

La herramienta marcará:

Dependencias desancladas que podrían instalar diferentes versiones en las ejecuciones de un trabajo
Conflictos de versiones entre paquetes
Dependencias no disponibles para su entorno de AWS Glue objetivo

Amazon Q Developer es un asistente conversacional con tecnología de inteligencia artificial (IA) generativa que puede ayudarle a comprender, crear, extender y operar aplicaciones de AWS. Puedes descargarlo siguiendo las instrucciones de la guía de introducción de Amazon Q.

Amazon Q Developer se puede utilizar para analizar y corregir errores en los trabajos debido a la dependencia de Python. Le sugerimos que utilice la siguiente petición y sustituya el marcador de posición <Job-Name> por el nombre del trabajo de Glue.


I have an AWS Glue job named <Job-Name> that has failed due to Python module installation conflicts. Please assist in diagnosing and resolving this issue using the following systematic approach. Proceed once sufficient information is available.

Objective: Implement a fix that addresses the root cause module while minimizing disruption to the existing working environment.

Step 1: Root Cause Analysis
• Retrieve the most recent failed job run ID for the specified Glue job
• Extract error logs from CloudWatch Logs using the job run ID as a log stream prefix
• Analyze the logs to identify:
  • The recently added or modified Python module that triggered the dependency conflict
  • The specific dependency chain causing the installation failure
  • Version compatibility conflicts between required and existing modules

Step 2: Baseline Configuration Identification
• Locate the last successful job run ID prior to the dependency failure
• Document the Python module versions that were functioning correctly in that baseline run
• Establish the compatible version constraints for conflicting dependencies

Step 3: Targeted Resolution Implementation
• Apply pinning by updating the job's additional_python_modules parameter
• Pin only the root cause module and its directly conflicting dependencies to compatible versions, and do not remove python modules unless necessary
• Preserve flexibility for non-conflicting modules by avoiding unnecessary version constraints
• Deploy the configuration changes with minimal changes to the existing configuration and execute a validation test run. Do not change the Glue versions.

Implementation Example:
Scenario: Recently added pandas==2.0.0 to additional_python_modules
Error: numpy version conflict (pandas 2.0.0 requires numpy>=1.21, but existing job code requires numpy<1.20)
Resolution: Update additional_python_modules to "pandas==1.5.3,numpy==1.19.5"
Rationale: Use pandas 1.5.3 (compatible with numpy 1.19.5) and pin numpy to last known working version

Expected Outcome: Restore job functionality with minimal configuration changes while maintaining system stability.

La petición le indica a Q que:

Obtenga el último identificador de ejecución de un trabajo fallido
Busque los registros y detalles asociados
Busque los trabajos ejecutados correctamente para detectar cualquier paquete de Python modificado
Realice las correcciones de configuración necesarias y active otra ejecución de prueba

Módulos de Python que ya se proporcionaron en AWS

Para cambiar la versión de estos módulos proporcionados, indique las nuevas versiones con el parámetro de trabajo --additional-python-modules.

AWS Glue version 5.0

La versión 5.0 de AWS Glue incluye los siguientes módulos de Python listos para su uso:

aiobotocore==2.13.1
aiohappyeyeballs==2.3.5
aiohttp==3.10.1
aioitertools==0.11.0
aiosignal==1.3.1
appdirs==1.4.4
attrs==24.2.0
boto3==1.34.131
botocore==1.34.131
certifi==2024.7.4
charset-normalizer==3.3.2
contourpy==1.2.1
cycler==0.12.1
fonttools==4.53.1
frozenlist==1.4.1
fsspec==2024.6.1
idna==2.10
jmespath==0.10.0
kaleido==0.2.1
kiwisolver==1.4.5
matplotlib==3.9.0
multidict==6.0.5
numpy==1.26.4
packaging==24.1
pandas==2.2.2
pillow==10.4.0
pip==23.0.1
plotly==5.23.0
pyarrow==17.0.0
pyparsing==3.1.2
python-dateutil==2.9.0.post0
pytz==2024.1
requests==2.32.2
s3fs==2024.6.1
s3transfer==0.10.2
seaborn==0.13.2
setuptools==59.6.0
six==1.16.0
tenacity==9.0.0
tzdata==2024.1
urllib3==1.25.10
virtualenv==20.4.0
wrapt==1.16.0
yarl==1.9.4

AWS Glue version 4.0

La versión 4.0 de AWS Glue incluye los siguientes módulos de Python listos para su uso:

aiobotocore==2.4.1
aiohttp==3.8.3
aioitertools==0.11.0
aiosignal==1.3.1
async-timeout==4.0.2
asynctest==0.13.0
attrs==22.2.0
avro-python3==1.10.2
boto3==1.24.70
botocore==1.27.59
certifi==2021.5.30
chardet==3.0.4
charset-normalizer==2.1.1
click==8.1.3
cycler==0.10.0
Cython==0.29.32
fsspec==2021.8.1
idna==2.10
importlib-metadata==5.0.0
jmespath==0.10.0
joblib==1.0.1
kaleido==0.2.1
kiwisolver==1.4.4
matplotlib==3.4.3
mpmath==1.2.1
multidict==6.0.4
nltk==3.7
numpy==1.23.5
packaging==23.0
pandas==1.5.1
patsy==0.5.1
Pillow==9.4.0
pip==23.0.1
plotly==5.16.0
pmdarima==2.0.1
ptvsd==4.3.2
pyarrow==10.0.0
pydevd==2.5.0
pyhocon==0.3.58
PyMySQL==1.0.2
pyparsing==2.4.7
python-dateutil==2.8.2
pytz==2021.1
PyYAML==6.0.1
regex==2022.10.31
requests==2.23.0
s3fs==2022.11.0
s3transfer==0.6.0
scikit-learn==1.1.3
scipy==1.9.3
setuptools==49.1.3
six==1.16.0
statsmodels==0.13.5
subprocess32==3.5.4
sympy==1.8
tbats==1.1.0
threadpoolctl==3.1.0
tqdm==4.64.1
typing_extensions==4.4.0
urllib3==1.25.11
wheel==0.37.0
wrapt==1.14.1
yarl==1.8.2
zipp==3.10.0

AWS Glue version 3.0

La versión 3.0 de AWS Glue incluye los siguientes módulos de Python listos para su uso:

aiobotocore==1.4.2
aiohttp==3.8.3
aioitertools==0.11.0
aiosignal==1.3.1
async-timeout==4.0.2
asynctest==0.13.0
attrs==22.2.0
avro-python3==1.10.2
boto3==1.18.50
botocore==1.21.50
certifi==2021.5.30
chardet==3.0.4
charset-normalizer==2.1.1
click==8.1.3
cycler==0.10.0
Cython==0.29.4
docutils==0.17.1
enum34==1.1.10
frozenlist==1.3.3
fsspec==2021.8.1
idna==2.10
importlib-metadata==6.0.0
jmespath==0.10.0
joblib==1.0.1
kiwisolver==1.3.2
matplotlib==3.4.3
mpmath==1.2.1
multidict==6.0.4
nltk==3.6.3
numpy==1.19.5
packaging==23.0
pandas==1.3.2
patsy==0.5.1
Pillow==9.4.0
pip==23.0
pmdarima==1.8.2
ptvsd==4.3.2
pyarrow==5.0.0
pydevd==2.5.0
pyhocon==0.3.58
PyMySQL==1.0.2
pyparsing==2.4.7
python-dateutil==2.8.2
pytz==2021.1
PyYAML==5.4.1
regex==2022.10.31
requests==2.23.0
s3fs==2021.8.1
s3transfer==0.5.0
scikit-learn==0.24.2
scipy==1.7.1
six==1.16.0
Spark==1.0
statsmodels==0.12.2
subprocess32==3.5.4
sympy==1.8
tbats==1.1.0
threadpoolctl==3.1.0
tqdm==4.64.1
typing_extensions==4.4.0
urllib3==1.25.11
wheel==0.37.0
wrapt==1.14.1
yarl==1.8.2
zipp==3.12.0

AWS Glue version 2.0

La versión 2.0 de AWS Glue incluye los siguientes módulos de Python listos para su uso:

avro-python3==1.10.0
awscli==1.27.60
boto3==1.12.4
botocore==1.15.4
certifi==2019.11.28
chardet==3.0.4
click==8.1.3
colorama==0.4.4
cycler==0.10.0
Cython==0.29.15
docutils==0.15.2
enum34==1.1.9
fsspec==0.6.2
idna==2.9
importlib-metadata==6.0.0
jmespath==0.9.4
Joblib==0.14.1
kiwisolver==1.1.0
matplotlib==3.1.3
mpmath==1.1.0
nltk==3.5
numpy==1.18.1
pandas==1.0.1
patsy==0.5.1
pmdarima==1.5.3
ptvsd==4.3.2
pyarrow==0.16.0
pyasn1==0.4.8
pydevd==1.9.0
pyhocon==0.3.54
PyMySQL==0.9.3
pyparsing==2.4.6
python-dateutil==2.8.1
pytz==2019.3
PyYAML==5.3.1
regex==2022.10.31
requests==2.23.0
rsa==4.7.2
s3fs==0.4.0
s3transfer==0.3.3
scikit-learn==0.22.1
scipy==1.4.1
setuptools==45.2.0
six==1.14.0
Spark==1.0
statsmodels==0.11.1
subprocess32==3.5.4
sympy==1.5.1
tbats==1.0.9
tqdm==4.64.1
typing-extensions==4.4.0
urllib3==1.25.8
wheel==0.35.1
zipp==3.12.0

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Llamada a las API

Muestras de Python