기본 Python 기능 사용 Python 가상 환경 빌드 Python 라이브러리를 사용하도록 PySpark 작업 구성

EMR Serverless에서 Python 라이브러리 사용

Amazon EMR Serverless 애플리케이션에서 PySpark 작업을 실행할 때 다양한 Python 라이브러리를 종속성으로 패키징합니다. 이렇게 하려면 기본 Python 기능을 사용하거나, 가상 환경을 구축하거나, Python 라이브러리를 사용하도록 PySpark 작업을 직접 구성합니다. 이 페이지에서는 각 접근 방식을 다룹니다.

기본 Python 기능 사용

다음 구성을 설정할 때 PySpark를 사용하여 Python 파일(.py), 압축된 Python 패키지(.zip) 및 에그 파일(.egg)을 Spark 실행기에 업로드합니다.


--conf spark.submit.pyFiles=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/<.py|.egg|.zip file>

PySpark 작업에 Python 가상 환경을 사용하는 방법에 대한 자세한 내용은 PySpark 기본 기능 사용을 참조하세요.

EMR Notebook을 사용할 때 다음 코드를 실행하여 노트북에서 Python 종속성을 사용할 수 있도록 할 수 있습니다.


    %%configure -f
 {
    "conf": {
    "spark.submit.pyFiles":"s3:///amzn-s3-demo-bucket/EXAMPLE-PREFIX/<.py|.egg|.zip file>
                   }
 }

Python 가상 환경 빌드

PySpark 작업에 대해 여러 Python 라이브러리를 패키징하려면 격리된 Python 가상 환경을 생성합니다.

Python 가상 환경을 빌드하려면 다음 명령을 사용합니다. 표시된 예제에서는 scipy 및 matplotlib 패키지를 가상 환경 패키지에 설치하고 아카이브를 Amazon S3 위치에 복사합니다.

중요

EMR Serverless에서 사용하는 것과 동일한 버전의 Python(즉, Amazon EMR 릴리스 6.6.0의 경우 Python 3.7.10)을 사용하여 유사한 Amazon Linux 2 환경에서 다음 명령을 실행해야 합니다. EMR Serverless Samples GitHub 리포지토리에서 예제 Dockerfile을 찾을 수 있습니다.


# initialize a python virtual environment
python3 -m venv pyspark_venvsource
source pyspark_venvsource/bin/activate

# optionally, ensure pip is up-to-date
pip3 install --upgrade pip

# install the python packages
pip3 install scipy
pip3 install matplotlib

# package the virtual environment into an archive
pip3 install venv-pack
venv-pack -f -o pyspark_venv.tar.gz

# copy the archive to an S3 location
aws s3 cp pyspark_venv.tar.gz s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/

# optionally, remove the virtual environment directory
rm -fr pyspark_venvsource

Python 가상 환경을 사용하도록 속성이 설정된 Spark 작업을 제출합니다.
```
--conf spark.archives=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/pyspark_venv.tar.gz#environment 
--conf spark.emr-serverless.driverEnv.PYSPARK_DRIVER_PYTHON=./environment/bin/python
--conf spark.emr-serverless.driverEnv.PYSPARK_PYTHON=./environment/bin/python 
--conf spark.executorEnv.PYSPARK_PYTHON=./environment/bin/python
```
원래 Python 바이너리를 재정의하지 않으면 이전 설정 시퀀스의 두 번째 구성은 --conf spark.executorEnv.PYSPARK_PYTHON=python입니다.

PySpark 작업에 Python 가상 환경을 사용하는 방법에 대한 자세한 내용은 Virtualenv 사용을 참조하세요. Spark 작업을 제출하는 방법에 대한 자세한 예는 섹션을 참조하세요EMR Serverless 작업을 실행하는 경우 Spark 구성 사용.

Python 라이브러리를 사용하도록 PySpark 작업 구성

Amazon EMR 릴리스 6.12.0 이상을 사용하면 추가 설정 없이 pandas, NumPy 및 PyArrow와 같은 널리 사용되는 데이터 과학 Python 라이브러리를 사용하도록 EMR Serverless PySpark 작업을 직접 구성할 수 있습니다.

다음 예제에서는 PySpark 작업을 위해 각 Python 라이브러리를 패키징하는 방법을 보여줍니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Iceberg 사용

다양한 Python 버전 사용