JupyterHub - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

JupyterHub

Jupyter Notebook은 라이브 코드, 방정식, 시각화 및 설명 텍스트가 포함된 문서를 만들고 공유하는 데 사용할 수 있는 오픈 소스 웹 애플리케이션입니다. JupyterHub단일 사용자 Jupyter 노트북 서버의 여러 인스턴스를 호스팅할 수 있습니다. 를 사용하여 클러스터를 생성하면 Amazon EMR은 클러스터의 마스터 노드에 Docker 컨테이너를 생성합니다. JupyterHub JupyterHub, Jupyter 및 Sparkmagic에 필요한 모든 구성 요소가 컨테이너 내에서 실행됩니다.

Sparkmagic은 주피터 노트북이 Spark용 REST 서버인 Amazon EMR에서 실행되는 아파치 스파크와 상호 작용할 수 있도록Apache Livy 하는 커널 라이브러리입니다. Spark 및 Apache Livy는 JupyterHub을 사용하여 클러스터 생성 시 자동으로 설치됩니다. Jupyter용 기본 Python 3 커널은 Sparkmagic에서 사용할 수 있는 PySpark 3 PySpark, 및 Spark 커널과 함께 사용할 수 있습니다. 이러한 커널을 사용하여 Python과 Scala를 사용하여 임시 Spark 코드 및 대화형 SQL 쿼리를 실행할 수 있습니다. Docker 컨테이너 내에 추가 커널을 수동으로 설치할 수 있습니다. 자세한 내용은 추가 커널 및 라이브러리 설치을 참조하세요.

다음 다이어그램은 Amazon EMR의 JupyterHub 구성 요소와 노트북 사용자 및 관리자를 위한 해당 인증 방법을 보여줍니다. 자세한 내용은 주피터 노트북 사용자 및 관리자 추가을 참조하세요.

다음 표에는 Amazon EMR 6.x 시리즈의 최신 릴리스에 JupyterHub 포함된 버전과 Amazon EMR과 함께 설치되는 구성 요소가 나와 JupyterHub 있습니다.

이 JupyterHub 릴리스에서 설치된 구성 요소 버전은 릴리스 6.8.0 구성 요소 버전을 참조하십시오.

JupyterHub emr-6.8.0에 대한 버전 정보
Amazon EMR JupyterHub 버전 구성 요소 설치 JupyterHub

emr-6.8.0

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

다음 표에는 Amazon EMR 5.x 시리즈의 최신 릴리스에 JupyterHub 포함된 버전과 Amazon EMR과 함께 설치되는 구성 요소가 나와 JupyterHub 있습니다.

이 JupyterHub 릴리스에서 설치된 구성 요소 버전은 릴리스 5.36.0 구성 요소 버전을 참조하십시오.

JupyterHub emr-5.36.0에 대한 버전 정보
Amazon EMR JupyterHub 버전 구성 요소 설치 JupyterHub

emr-5.36.0

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

아마존 JupyterHub EMR에 포함된 파이썬 3 커널은 3.6.4입니다.

jupyterhub컨테이너 내에 설치된 라이브러리는 Amazon EMR 릴리스 버전과 Amazon EC2 AMI 버전 간에 다를 수 있습니다.

conda를 사용하여 설치된 라이브러리를 나열하려면
  • 마스터 노드 명령줄에서 다음 명령을 실행합니다.

    sudo docker exec jupyterhub bash -c "conda list"
pip를 사용하여 설치된 라이브러리를 나열하려면
  • 마스터 노드 명령줄에서 다음 명령을 실행합니다.

    sudo docker exec jupyterhub bash -c "pip freeze"