SageMaker Exemplos do Spark para Python (PySpark) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker Exemplos do Spark para Python (PySpark)

SageMaker A Amazon fornece uma biblioteca Apache Spark Python (SageMaker PySpark) que você pode usar para integrar seus aplicativos Apache Spark. SageMaker Por exemplo, você pode usar o Apache Spark para pré-processamento de dados e para treinamento e SageMaker hospedagem de modelos. Para obter informações sobre a biblioteca SageMaker Apache Spark, consulte. Use o Apache Spark com a Amazon SageMaker

Baixar PySpark

Você pode baixar o código-fonte das bibliotecas Python Spark (PySpark) e Scala no repositório Spark. SageMaker GitHub

Para obter instruções sobre como instalar a biblioteca SageMaker Spark, use qualquer uma das opções a seguir ou acesse SageMaker PySpark.

  • Instale usando pip:

    pip install sagemaker_pyspark
  • Instale a partir da fonte:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • Você também pode criar um novo notebook em uma instância de notebook que usa o kernel Sparkmagic (PySpark) ou o Sparkmagic (PySpark3) kernel e se conectar a um cluster remoto do Amazon EMR.

    nota

    O cluster do Amazon EMR deve ser configurado com uma função do IAM que tenha a AmazonSageMakerFullAccess política anexada. Para obter informações sobre a configuração de funções para um cluster do EMR, consulte Configurar funções do IAM para permissões do Amazon EMR em serviços da AWS no Guia de Gerenciamento do Amazon EMR.

PySpark exemplos

Para obter exemplos de uso SageMaker PySpark, consulte:

Para executar os blocos de anotações em uma instância de bloco de anotações, consulte Blocos de anotações de exemplo. Para executar os blocos de anotações no Studio, consulte Crie ou abra um notebook Amazon SageMaker Studio Classic.