Amazon EMR을 사용한 데이터 준비 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EMR을 사용한 데이터 준비

중요

Amazon SageMaker Studio와 Amazon SageMaker Studio Classic은 상호 작용하는 데 사용할 수 있는 두 가지 기계 학습 SageMaker 환경입니다.

도메인이 2023년 11월 30일 이후에 생성된 경우 Studio가 기본 환경입니다.

도메인이 2023년 11월 30일 이전에 생성된 경우 Amazon SageMaker 스튜디오 클래식이 기본 환경입니다. Amazon SageMaker Studio Classic이 기본 환경인 경우 Studio를 사용하려면 을 참조하십시오Amazon SageMaker 스튜디오 클래식에서 마이그레이션하기.

Amazon SageMaker Studio Classic에서 Amazon SageMaker Studio로 마이그레이션해도 기능 가용성은 손실되지 않습니다. Studio Classic은 Amazon SageMaker Studio 내에 애플리케이션으로도 제공되므로 기존 기계 학습 워크플로를 실행하는 데 도움이 됩니다.

Amazon SageMaker Studio와 Studio Classic에는 Amazon EMR의 통합 기능이 내장되어 있어 데이터 과학자와 데이터 엔지니어가 노트북에서 바로 페타바이트 규모의 대화형 데이터 준비 및 기계 학습 (ML) 을 수행할 수 있습니다. Studio Classic 노트북 내에서 JupyterLab 기존 Amazon EMR 클러스터를 검색하고 연결한 다음 Apache Spark, Apache Hive 또는 Presto를 사용하여 기계 학습을 위한 대규모 데이터를 대화식으로 탐색, 시각화하고 준비할 수 있습니다. 노트북을 떠나지 않고도 클릭 한 번으로 Spark UI에 액세스하여 Spark 작업의 상태와 지표를 모니터링할 수 있습니다.

관리자는 Amazon EMR AWS CloudFormation 클러스터를 정의하는 템플릿을 생성할 수 있습니다. 그런 다음 Studio 및 Studio Classic 사용자가 실행할 수 있도록 해당 클러스터 템플릿을 에서 사용할 수 있도록 만들 수 있습니다. AWS Service Catalog 그러면 데이터 과학자는 사전 정의된 템플릿을 선택하여 Studio 환경에서 직접 Amazon EMR 클러스터를 자체 프로비저닝할 수 있습니다. 관리자는 템플릿을 추가로 매개 변수화하여 사용자가 사전 정의된 값 내에서 클러스터의 여러 요소를 선택할 수 있도록 할 수 있습니다. 예를 들어, 사용자는 코어 노드 수를 지정하거나 드롭다운 메뉴에서 노드의 인스턴스 유형을 선택할 수 있습니다.

를 사용하여 AWS CloudFormation관리자는 Amazon EMR 클러스터의 조직, 보안 및 네트워킹 설정을 제어할 수 있습니다. 그런 다음 데이터 과학자와 데이터 엔지니어는 워크로드에 맞게 템플릿을 사용자 지정하여 복잡한 구성을 설정하지 않고도 Studio 및 Studio Classic에서 직접 온디맨드 Amazon EMR 클러스터를 생성할 수 있습니다. 사용자는 사용 후 Amazon EMR 클러스터를 종료할 수 있습니다.