JupyterHub - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

JupyterHub

Jupyter Notebook은 실시간 코드, 수식, 가상화 및 설명 텍스트가 포함된 문서를 생성 및 공유하는 데 사용할 수 있는 오픈 소스 웹 애플리케이션입니다. JupyterHub단일 사용자 Jupyter 노트북 서버의 여러 인스턴스를 호스팅할 수 있습니다. 로 JupyterHub 클러스터를 생성하면 Amazon은 클러스터의 마스터 노드에 Docker 컨테이너를 EMR 생성합니다. JupyterHub, Jupyter와 Sparkmagic에 필요한 모든 구성 요소는 컨테이너 내에서 실행됩니다.

Sparkmagic은 Jupyter 노트북이 Spark용 서버인 EMR Amazon에서 실행되는 Apache Spark와 상호 작용할 수 있도록 하는 커널 라이브러리입니다. Apache Livy REST 를 사용하여 클러스터를 생성하면 Spark와 Apache Livy가 자동으로 설치됩니다. JupyterHub Jupyter용 기본 Python 3 커널은 Sparkmagic에서 사용할 수 있는 PySpark 3, PySpark, 및 Spark 커널과 함께 사용할 수 있습니다. 이러한 커널을 사용하여 Python과 Scala를 SQL 사용하여 임시 Spark 코드와 대화형 쿼리를 실행할 수 있습니다. Docker 컨테이너 내에 추가 커널을 수동으로 설치할 수 있습니다. 자세한 내용은 추가 커널 및 라이브러리 설치 단원을 참조하십시오.

다음 다이어그램은 노트북 사용자 및 관리자를 위한 해당 인증 방법과 EMR 함께 JupyterHub on Amazon의 구성 요소를 보여줍니다. 자세한 내용은 Jupyter Notebook 사용자 및 관리자 추가 단원을 참조하십시오.

JupyterHub architecture on EMR showing user authentication and component interactions.

다음 표에는 Amazon EMR 7.x 시리즈의 최신 릴리스에 JupyterHub 포함된 버전 및 Amazon이 EMR 설치와 함께 사용하는 구성 요소가 나열되어 있습니다. JupyterHub

이번 JupyterHub 릴리스에 설치된 구성 요소 버전은 릴리스 7.2.0 구성 요소 버전을 참조하십시오.

JupyterHub emr-7.2.0의 버전 정보
아마존 EMR 출시 라벨 JupyterHub 버전 와 함께 설치된 구성 요소 JupyterHub

emr-7.2.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

다음 표에는 Amazon EMR 6.x 시리즈의 최신 릴리스에 JupyterHub 포함된 버전과 Amazon이 EMR 설치하는 데 함께 사용되는 구성 요소가 나열되어 있습니다. JupyterHub

이 JupyterHub 릴리스에 설치된 구성 요소 버전은 릴리스 6.15.0 구성 요소 버전을 참조하십시오.

JupyterHub emr-6.15.0의 버전 정보
아마존 EMR 출시 라벨 JupyterHub 버전 와 함께 설치된 구성 요소 JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

다음 표에는 Amazon EMR 5.x 시리즈의 최신 릴리스에 JupyterHub 포함된 버전 및 Amazon이 EMR 설치와 함께 사용하는 구성 요소가 나열되어 있습니다. JupyterHub

이 JupyterHub 릴리스에 설치된 구성 요소 버전은 릴리스 5.36.2 구성 요소 버전을 참조하십시오.

JupyterHub emr-5.36.2의 버전 정보
아마존 EMR 출시 라벨 JupyterHub 버전 와 함께 설치된 구성 요소 JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

JupyterHub 아마존에 포함된 Python 3 EMR 커널은 3.6.4입니다.

jupyterhub컨테이너 내에 설치된 라이브러리는 Amazon EMR 릴리스 버전과 Amazon EC2 AMI 버전 간에 다를 수 있습니다.

conda를 사용하여 설치된 라이브러리를 나열하려면
  • 마스터 노드 명령줄에서 다음 명령을 실행합니다.

    sudo docker exec jupyterhub bash -c "conda list"
pip를 사용하여 설치된 라이브러리를 나열하려면
  • 마스터 노드 명령줄에서 다음 명령을 실행합니다.

    sudo docker exec jupyterhub bash -c "pip freeze"