Elaborazione dei dati con Apache Spark - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Elaborazione dei dati con Apache Spark

Apache Spark è un motore di analisi unificato per l'elaborazione di dati su larga scala. Amazon SageMaker fornisce immagini Docker predefinite che includono Apache Spark e altre dipendenze necessarie per eseguire processi di elaborazione dati distribuiti. Con Amazon SageMaker Python SDK, puoi applicare facilmente trasformazioni di dati ed estrarre funzionalità (ingegneria delle funzionalità) utilizzando il framework Spark. Per informazioni sull'utilizzo dell'SDK SageMaker Python per eseguire i processi di elaborazione Spark, consulta Data Processing with Spark nell'SDK Amazon Python. SageMaker

Un repository di codice che contiene il codice sorgente e i Dockerfile per le immagini Spark è disponibile su. GitHub

Esecuzione di un'attività di elaborazione Spark.

Puoi usare la classe sagemaker.spark.PySparkProcessor o sagemaker.spark.SparkJarProcessor per eseguire l'applicazione Spark all'interno di un processo di elaborazione. Nota che puoi impostare un limite massimo MaxRuntimeInSeconds di durata di 5 giorni. Per quanto riguarda il tempo di esecuzione e il numero di istanze utilizzate, i carichi di lavoro Simple Spark vedono una relazione quasi lineare tra il numero di istanze e il tempo di completamento.

Il seguente esempio di codice mostra come eseguire un processo di elaborazione che richiama lo script. PySpark preprocess.py

from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )

Per un'analisi approfondita, consultate il notebook di esempio Distributed Data Processing with Apache Spark and Processing. SageMaker

Se non utilizzi l'SDK Amazon SageMaker Python e una delle sue classi Processor per recuperare le immagini predefinite, puoi recuperarle tu stesso. Le immagini Docker SageMaker predefinite sono archiviate in Amazon Elastic Container Registry (Amazon ECR). Per un elenco completo delle immagini Docker predefinite disponibili, consulta il documento delle immagini disponibili.

Per ulteriori informazioni sull'utilizzo dell'SDK SageMaker Python con i contenitori Processing, consulta Amazon SageMaker Python SDK.