JupyterHub - Amazon EMR

JupyterHub

Jupyter Notebook은 실시간 코드, 수식, 가상화 및 설명 텍스트가 포함된 문서를 생성 및 공유하는 데 사용할 수 있는 오픈 소스 웹 애플리케이션입니다. JupyterHub를 사용하면 단일 사용자 Jupyter Notebook 서버의 여러 인스턴스를 호스팅할 수 있습니다. JupyterHub를 사용하여 클러스터를 생성하면 Amazon EMR이 클러스터의 프라이머리 노드에 Docker 컨테이너를 생성합니다. JupyterHub, Jupyter에 필요한 모든 구성 요소 및 Sparkmagic이 컨테이너 내에서 실행됩니다.

Sparkmagic은 Jupyter Notebook이 Spark용 REST 서버인 Apache Livy를 통해 Amazon EMR에서 실행되는 Apache Spark와 상호 작용할 수 있도록 하는 커널 라이브러리입니다. Spark 및 Apache Livy는 JupyterHub를 사용하여 클러스터 생성 시 자동으로 설치됩니다. Jupyter용 기본 Python 3 커널은 Sparkmagic에서 제공하는 PySpark 3, PySpark 및 Spark 커널과 함께 사용할 수 있습니다. 이러한 커널을 사용하면 Python 및 Scala를 사용하여 애드혹 Spark 코드 및 대화형 SQL 쿼리를 실행할 수 있습니다. Docker 컨테이너 내에 추가 커널을 수동으로 설치할 수 있습니다. 자세한 내용은 추가 커널 및 라이브러리 설치 섹션을 참조하세요.

다음 다이어그램은 노트북 사용자 및 관리자용 해당 인증 방법을 사용하여 Amazon EMR에 있는 JupyterHub의 구성 요소를 보여줍니다. 자세한 내용은 Jupyter Notebook 사용자 및 관리자 추가 섹션을 참조하세요.

다음 테이블에는 Amazon EMR이 JupyterHub를 통해 설치하는 구성 요소와 함께 Amazon EMR 6.x 시리즈의 최신 릴리스에 포함된 JupyterHub의 버전이 나열되어 있습니다.

이 릴리스에서 JupyterHub와 함께 설치된 구성 요소의 버전은 릴리스 6.14.0 구성 요소 버전을 참조하세요.

emr-6.14.0용 JupyterHub 버전 정보
Amazon EMR 릴리스 레이블 JupyterHub 버전 JupyterHub와 함께 설치된 구성 요소

emr-6.14.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

다음 테이블에는 Amazon EMR이 JupyterHub를 통해 설치하는 구성 요소와 함께 Amazon EMR 5.x 시리즈의 최신 릴리스에 포함된 JupyterHub의 버전이 나열되어 있습니다.

이 릴리스에서 JupyterHub와 함께 설치된 구성 요소의 버전은 릴리스 6.14.0 구성 요소 버전을 참조하세요.

emr-5.36.1용 JupyterHub 버전 정보
Amazon EMR 릴리스 레이블 JupyterHub 버전 JupyterHub와 함께 설치된 구성 요소

emr-5.36.1

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

Amazon EMR의 JupyterHub에 포함되어 있는 Python 3 커널은 3.6.4입니다.

jupyterhub 컨테이너 내에 설치되어 있는 라이브러리는 Amazon EMR 릴리스 버전 및 Amazon EC2 AMI 버전 간에 다를 수 있습니다.

conda를 사용하여 설치된 라이브러리를 나열하려면
  • 마스터 노드 명령줄에서 다음 명령을 실행합니다.

    sudo docker exec jupyterhub bash -c "conda list"
pip를 사용하여 설치된 라이브러리를 나열하려면
  • 마스터 노드 명령줄에서 다음 명령을 실행합니다.

    sudo docker exec jupyterhub bash -c "pip freeze"