Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Elaborazione dei dati con Apache Spark
Apache Spark è un motore di analisi unificato per l'elaborazione di dati su larga scala. Amazon SageMaker fornisce immagini Docker predefinite che includono Apache Spark e altre dipendenze necessarie per eseguire processi di elaborazione dati distribuiti. Con Amazon SageMaker Python SDK
Un repository di codice che contiene il codice sorgente e i Dockerfile per le immagini Spark è disponibile su. GitHub
Esecuzione di un'attività di elaborazione Spark.
Puoi usare la classe sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
Il seguente esempio di codice mostra come eseguire un processo di elaborazione che richiama lo script. PySpark preprocess.py
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Se non utilizzi l'SDK Amazon SageMaker Python
Per ulteriori informazioni sull'utilizzo dell'SDK SageMaker Python con i contenitori Processing, consulta Amazon SageMaker Python