Processamento de dados com o Apache Spark - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Processamento de dados com o Apache Spark

O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala. SageMakerA Amazon fornece imagens pré-criadas do Docker que incluem o Apache Spark e outras dependências necessárias para executar trabalhos distribuídos de processamento de dados. Com o Amazon SageMaker Python SDK, você pode aplicar facilmente transformações de dados e extrair recursos (engenharia de recursos) usando a estrutura Spark. Para obter informações sobre como usar o SDK do SageMaker Python para executar trabalhos de processamento do Spark, consulte Processamento de dados com o Spark no SDK do Amazon Python. SageMaker

Um repositório de código que contém o código-fonte e os Dockerfiles das imagens do Spark está disponível em. GitHub

Execução de um trabalho de processamento Spark

Você pode usar a sagemaker.spark.PySparkProcessor ou a classe sagemaker.spark.SparkJarProcessor para executar seu aplicativo Spark dentro de um trabalho de processamento. Observe que você pode MaxRuntimeInSeconds definir um limite máximo de tempo de execução de 5 dias. Com relação ao runtime e ao número de instâncias usadas, cargas de trabalho simples do Spark apresentam uma relação quase linear entre o número de instâncias e o tempo até a conclusão.

O exemplo de código a seguir mostra como executar um trabalho de processamento que invoca seu PySpark script. preprocess.py

from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )

Para uma análise mais aprofundada, consulte o caderno de exemplo de Processamento de Dados Distribuído com Apache Spark e SageMaker Processing.

Se você não estiver usando o SDK do Amazon SageMaker Python e uma de suas classes de processador para recuperar as imagens pré-criadas, você mesmo poderá recuperá-las. As imagens SageMaker pré-criadas do Docker são armazenadas no Amazon Elastic Container Registry (Amazon ECR). Para obter uma lista completa das imagens do Docker pré-criadas disponíveis, consulte o documento de imagens disponíveis.

Para saber mais sobre como usar o SDK para SageMaker Python com contêineres de processamento, consulte Amazon SageMaker Python SDK.