SageMaker Python용 스파크 (PySpark) 예제 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker Python용 스파크 (PySpark) 예제

SageMaker Amazon은 Apache Spark 애플리케이션을 통합하는 데 사용할 수 있는 Apache Spark Python 라이브러리 (SageMaker PySpark) 를 제공합니다. SageMaker 예를 들어 데이터 전처리와 모델 교육 및 호스팅에 Apache Spark를 사용할 수 있습니다. SageMaker SageMaker Apache Spark 라이브러리에 대한 자세한 내용은 을 참조하십시오. Amazon에서 아파치 스파크를 사용하세요 SageMaker

다운로드 PySpark

Spark 리포지토리에서 Python Spark (PySpark) 및 Scala 라이브러리의 소스 코드를 모두 다운로드할 수 있습니다. SageMaker GitHub

SageMaker Spark 라이브러리 설치에 대한 지침을 보려면 다음 옵션을 사용하거나 사이트를 방문하십시오. SageMaker PySpark

  • pip를 사용하여 설치:

    pip install sagemaker_pyspark
  • 소스에서 설치:

    git clone git@github.com:aws/sagemaker-spark.git cd sagemaker-pyspark-sdk python setup.py install
  • Sparkmagic (PySpark)또는 Sparkmagic (PySpark3) 커널을 사용하는 노트북 인스턴스에서 새 노트북을 생성하고 원격 Amazon EMR 클러스터에 연결할 수도 있습니다.

    참고

    Amazon EMR 클러스터는 정책이 연결된 IAM 역할로 구성되어야 합니다. AmazonSageMakerFullAccess EMR 클러스터의 역할을 구성하는 방법에 대한 자세한 내용은 Amazon EMR 관리 안내서AWS서비스에 대한 Amazon EMR 권한에 대한 IAM 역할 구성을 참조하십시오.

PySpark 예:

사용 예는 SageMaker PySpark 다음을 참조하십시오.

노트북 인스턴스에서 노트북을 실행하려면 예제 노트북을 참조하십시오. Studio에서 노트북을 실행하려면 Amazon SageMaker 스튜디오 클래식 노트북 생성 또는 열기을 참조하십시오.