Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Traitement des données avec Apache Spark
Apache Spark est un moteur analytique unifié, pour le traitement des données à grande échelle. Amazon SageMaker fournit des images Docker préconçues qui incluent Apache Spark et d'autres dépendances nécessaires pour exécuter des tâches de traitement de données distribuées. Avec le SDK Amazon SageMaker Python
Un référentiel de code contenant le code source et les fichiers Docker pour les images Spark est disponible sur GitHub
Exécution d'une tâche de traitement Spark
Vous pouvez utiliser la classe sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
L'exemple de code suivant montre comment exécuter une tâche de traitement qui appelle votre script PySpark preprocess.py
.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Pour de plus amples informations, veuillez consulter l'exemple bloc-notes
Si vous n'utilisez pas le SDK Amazon SageMaker Python
Pour en savoir plus sur l'utilisation du SDK SageMaker Python avec des conteneurs Processing, veuillez consulter Amazon SageMaker Python SDK (SDK Amazon SageMaker Python)