Studio를 사용하여 EMR 애플리케이션 및 작업을 디버깅합니다. - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Studio를 사용하여 EMR 애플리케이션 및 작업을 디버깅합니다.

Amazon EMR Studio를 사용하면 데이터 애플리케이션 인터페이스를 실행하여 브라우저에서 애플리케이션 및 작업 실행을 분석할 수 있습니다.

Amazon EMR 콘솔에서 클러스터에서 EMR 실행되는 Amazon용 영구 클러스터 외부 사용자 인터페이스를 시작할 수도 있습니다. EC2 자세한 내용은 영구 애플리케이션 사용자 인터페이스 보기 단원을 참조하십시오.

참고

브라우저 설정에 따라 애플리케이션 UI를 열려면 팝업을 활성화해야 할 수 있습니다.

애플리케이션 인터페이스 구성 및 사용에 대한 자세한 내용은 YARN타임라인 서버, 모니터링 및 계측 또는 Tez UI 개요를 참조하십시오.

Amazon 작업에서 EMR 실행 중인 Amazon 디버깅 EC2

Workspace UI
노트북 파일에서 클러스터 내 UI 실행

Amazon EMR 릴리스 버전 5.33.0 이상을 사용하는 경우 워크스페이스의 노트북에서 Spark 웹 사용자 인터페이스 (Spark UI 또는 Spark 기록 서버) 를 시작할 수 있습니다.

클러스터 내에서는 PySpark, Spark 또는 SparkR 커널과 함께 UIs 작동합니다. Spark 이벤트 로그 또는 컨테이너 로그에서 볼 수 있는 최대 파일 크기는 10MB입니다. 로그 파일이 10MB를 초과하는 경우 클러스터 내 Spark UI 대신 영구 Spark 기록 서버를 사용하여 작업을 디버깅하는 것이 좋습니다.

중요

EMRStudio가 Workspace에서 클러스터 내 애플리케이션 사용자 인터페이스를 실행하려면 클러스터가 Amazon API Gateway와 통신할 수 있어야 합니다. Amazon Gateway로 나가는 네트워크 트래픽을 허용하도록 EMR 클러스터를 구성하고 클러스터에서 Amazon API API Gateway에 연결할 수 있는지 확인해야 합니다.

Spark UI는 호스트 이름을 확인하여 컨테이너 로그에 액세스합니다. 사용자 지정 도메인 이름을 사용하는 경우 Amazon DNS 또는 지정한 DNS 서버에서 클러스터 노드의 호스트 이름을 확인할 수 있는지 확인해야 합니다. 이렇게 하려면 클러스터와 연결된 Amazon Virtual Private Cloud (VPC) 의 동적 호스트 구성 프로토콜 () 옵션을 설정합니다. DHCP DHCP옵션에 대한 자세한 내용은 Amazon Virtual Private Cloud 사용 설명서의 옵션 세트를 참조하십시오DHCP.

  1. EMRStudio에서 사용하려는 Workspace를 열고 실행 중인 Amazon EMR 클러스터에 연결되어 있는지 확인합니다EC2. 지침은 EMRStudio 작업 공간에 컴퓨팅 연결 단원을 참조하십시오.

  2. 노트북 파일을 열고 PySpark, Spark 또는 SparkR 커널을 사용합니다. 커널을 선택하려면 노트북 도구 모음의 오른쪽 상단에서 커널 이름을 선택하여 커널 선택 대화 상자를 엽니다. 커널을 선택하지 않으면 이름은 커널 없음!으로 표시됩니다.

  3. 노트북 코드를 실행합니다. Spark 컨텍스트를 시작하면 노트북에 다음과 같은 출력이 나타납니다. 표시하는 데 몇 초 정도 걸릴 수 있습니다. Spark 컨텍스트를 시작한 경우 언제든지 %%info 명령을 실행하여 Spark UI에 대한 링크에 액세스할 수 있습니다.

    참고

    Spark UI 링크가 작동하지 않거나 몇 초 후에도 나타나지 않으면 새 노트북 셀을 생성하고 %%info 명령을 실행하여 링크를 다시 생성합니다.

    Spark UI로 연결되는 링크가 포함된 Spark 애플리케이션 마스터 정보의 스크린샷. 링크는 Spark 애플리케이션을 실행할 때 노트북에 나타납니다.
  4. Spark UI를 시작하려면 Spark UI에서 연결을 선택합니다. Spark 애플리케이션이 실행 중인 경우 Spark UI가 새 탭에서 열립니다. 애플리케이션이 완료되면 Spark 기록 서버가 대신 열립니다.

    Spark UI를 시작한 후 브라우저에서 를 수정하여 YARN ResourceManager 또는 Yarn 타임라인 서버를 열 수 있습니다. URL amazonaws.com 뒤에 다음 경로 중 하나를 추가합니다.

    웹 UI 경로 예제가 수정되었습니다. URL
    YARN ResourceManager /rm https://j-examplebby5ij.emrappui-prod.eu-west-1.amazonaws.com/rm
    Yarn 타임라인 서버 /yts https://j-examplebby5ij.emrappui-prod.eu-west-1.amazonaws.com/yts
    Spark 기록 서버 /shs https://j-examplebby5ij.emrappui-prod.eu-west-1.amazonaws.com/shs
Studio UI
스튜디오 UI에서 퍼시스턴트 YARN 타임라인 서버, 스파크 히스토리 서버 또는 Tez UI를 실행합니다. EMR
  1. EMR스튜디오에서 페이지 EMREC2왼쪽의 Amazon을 선택하여 Amazon EMR 온 EC2 클러스터 목록을 엽니다.

  2. 검색 상자에 값을 입력하여 이름, 상태 또는 ID별로 클러스터 목록을 필터링합니다. 생성 시간 범위를 기준으로 검색할 수도 있습니다.

  3. 클러스터를 선택한 다음 애플리케이션 UIs 시작을 선택하여 애플리케이션 사용자 인터페이스를 선택합니다. 새 브라우저 탭에서 애플리케이션 UI가 열리고 로드하는 데 시간이 걸릴 수 있습니다.

서버리스에서 EMR 실행되는 디버그 EMR 스튜디오

Amazon에서 EMR 실행되는 EC2 Amazon과 마찬가지로 Workspace 사용자 인터페이스를 사용하여 EMR 서버리스 애플리케이션을 분석할 수 있습니다. 워크스페이스 UI에서 Amazon EMR 릴리스 6.14.0 이상을 사용하는 경우 워크스페이스의 노트북에서 Spark 웹 사용자 인터페이스 (Spark UI 또는 Spark 히스토리 서버) 를 시작할 수 있습니다. 편의를 위해 Spark 드라이버 로그에 빠르게 액세스할 수 있는 드라이버 로그 링크도 제공합니다.

Spark 히스토리 서버로 EKS 작업 실행 EMR 시 Amazon을 디버깅합니다.

Amazon EMR on EKS 클러스터에 작업 실행을 제출하면 Spark 기록 서버를 사용하여 해당 작업 실행에 대한 로그에 액세스할 수 있습니다. Spark History Server는 스케줄러 단계 및 작업 목록, RDD 크기 및 메모리 사용량 요약, 환경 정보 등 Spark 애플리케이션을 모니터링하기 위한 도구를 제공합니다. 다음과 같은 방법으로 EKS 작업 실행 EMR 시 Amazon용 Spark 기록 서버를 시작할 수 있습니다.

  • EKS관리형 EMR 엔드포인트에서 Amazon과 함께 EMR Studio를 사용하여 작업 실행을 제출하면 작업 공간의 노트북 파일에서 Spark 기록 서버를 시작할 수 있습니다.

  • AWS CLI 또는 AWS SDK Amazon EMR EKS on을 사용하여 작업 실행을 제출하면 EMR Studio UI에서 Spark 기록 서버를 시작할 수 있습니다.

Spark 기록 서버를 사용하는 방법에 대한 자세한 내용은 Apache Spark 설명서에서 Monitoring and Instrumentation을 참조하세요. 작업 실행에 대한 자세한 내용은 Amazon EMR EKS 개발 안내서의 개념 및 구성 요소를 참조하십시오.

EMR스튜디오 워크스페이스의 노트북 파일에서 Spark 히스토리 서버를 실행하려면
  1. EKS클러스터의 EMR Amazon에 연결된 작업 공간을 엽니다.

  2. Workspace에서 노트북 파일을 선택하고 엽니다.

  3. 노트북 파일 상단에서 Spark UI를 선택하여 새 탭에서 영구 Spark 기록 서버를 엽니다.

EMRStudio UI에서 Spark 히스토리 서버를 시작하려면
참고

EMRStudio UI의 작업 목록에는 EMR Amazon의 경우 AWS CLI 또는 AWS SDK 를 사용하여 제출한 작업 실행만 표시됩니다EKS.

  1. EMR스튜디오에서 페이지 EMREKS왼쪽의 Amazon을 선택합니다.

  2. 작업 실행을 제출하는 데 사용한 Amazon EMR on EKS 가상 클러스터를 검색하십시오. 검색 상자에 값을 입력하여 상태 또는 ID별로 클러스터 목록을 필터링할 수 있습니다.

  3. 클러스터를 선택하여 세부 정보 페이지를 엽니다. 세부 정보 페이지에는 ID, 네임스페이스 및 상태와 같은 클러스터에 대한 정보가 표시됩니다. 이 페이지에는 해당 클러스터에 제출된 모든 작업 실행 목록도 표시됩니다.

  4. 클러스터 세부 정보 페이지에서 디버깅할 작업 실행을 선택합니다.

  5. 작업 목록의 오른쪽 상단에서 Spark 기록 서버 시작을 선택하여 새 브라우저 탭에서 애플리케이션 인터페이스를 엽니다.