Procesamiento de datos con Apache Spark - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Procesamiento de datos con Apache Spark

Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Amazon SageMaker proporciona imágenes de Docker prediseñadas que incluyen Apache Spark y otras dependencias necesarias para ejecutar trabajos de procesamiento de datos distribuidos. Con el SDK de Amazon SageMaker Python, puede aplicar fácilmente transformaciones de datos y extraer características (ingeniería de características) mediante el marco Spark. Para obtener información sobre el uso del SDK de SageMaker Python para ejecutar trabajos de procesamiento de Spark, consulte Procesamiento de datos con Spark en el SDK de Amazon SageMaker Python.

Hay disponible un repositorio de código que contiene el código fuente y los Dockerfiles de las imágenes de Spark en. GitHub

Ejecución de un trabajo de procesamiento de Spark

Puede usar la clase sagemaker.spark.PySparkProcessor o sagemaker.spark.SparkJarProcessor para ejecutar su aplicación Spark dentro de un trabajo de procesamiento. Ten en cuenta que puedes MaxRuntimeInSeconds establecer un límite máximo de tiempo de ejecución de 5 días. Con respecto al tiempo de ejecución y al número de instancias utilizadas, las cargas de trabajo de simple spark muestran una relación casi lineal entre el número de instancias y el tiempo de finalización.

El siguiente ejemplo de código muestra cómo ejecutar un trabajo de procesamiento que invoca el PySpark scriptpreprocess.py.

from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )

Para obtener más información, consulte el cuaderno de ejemplo sobre procesamiento y SageMaker procesamiento de datos distribuidos con Apache Spark.

Si no utiliza el SDK de Amazon SageMaker Python y una de sus clases de procesador para recuperar las imágenes prediseñadas, puede recuperarlas usted mismo. Las imágenes de Docker SageMaker prediseñadas se almacenan en Amazon Elastic Container Registry (Amazon ECR). Para ver una lista completa de las imágenes de Docker prediseñadas disponibles, consulte el documento de imágenes disponibles.

Para obtener más información sobre el uso del SDK de SageMaker Python con contenedores de procesamiento, consulte Amazon SageMaker Python SDK.