Studio에서 Amazon EMR Serverless 애플리케이션 또는 Amazon EMR 클러스터를 사용하여 대규모 데이터 준비

Amazon SageMaker Studio와 레거시 버전인 Studio Classic은 데이터 과학자와 기계 학습(ML) 엔지니어에게 대규모로 데이터 분석 및 데이터 준비를 수행할 수 있는 도구를 제공합니다. 대량의 데이터를 분석, 변환, 준비하는 것은 모든 데이터 과학 및 ML 워크플로우의 기본 단계입니다. Studio와 Studio Classic 모두 Amazon EMR과의 통합 기능이 기본 제공되어 있으므로 사용자가 JupyterLab 노트북 내에서 대규모 대화형 데이터 준비 및 기계 학습 워크플로를 관리할 수 있습니다.

Amazon EMR은 Apache Spark, Apache Hive, Presto, HBase, Flink 등 AWS 에서 오픈 소스 분석 프레임워크를 사용하여 페타바이트 규모의 분산형 데이터 처리 작업을 실행하는 데 도움이 되는 리소스를 갖춘 관리형 빅 데이터 플랫폼입니다. Studio 및 Studio Classic과 Amazon EMR의 통합을 통해, JupyterLab 노트북이나 Studio Classic 노트북을 떠나지 않고도 Amazon EMR 클러스터를 만들고, 검색하고, 탐색하고, 연결할 수 있습니다. 또한, 노트북 내에서 곧바로 Spark UI에 클릭 한 번으로 액세스하여 Spark 워크로드를 모니터링하고 디버깅할 수 있습니다.

대량의 데이터를 포함하는 대규모, 장기 실행 또는 복잡한 데이터 처리 요구 사항이 있거나, 광범위한 사용자 지정 및 다른 서비스와의 통합이 필요하거나, 사용자 지정 애플리케이션을 실행해야 하거나, Apache Spark 이외의 다양한 분산 데이터 처리 프레임워크를 실행할 계획인 경우 데이터 준비 워크로드에 Amazon EMR 클러스터를 고려해야 합니다.

SageMaker 배포 이미지 1.10 이상을 사용하면 SageMaker AI Studio의 JupyterLab 노트북에서 직접 대화형 EMR Serverless 애플리케이션에 연결할 수도 있습니다. Studio를 EMR Serverless와 통합하면 Amazon EMR 클러스터를 구성, 관리 또는 규모 조정하지 않고도 Apache Spark 및 Apache Hive와 같은 오픈 소스 빅 데이터 분석 프레임워크를 실행할 수 있습니다. EMR Serverless는 EMR Serverless 애플리케이션의 요구 사항에 따라 기본 컴퓨팅 및 메모리 리소스를 자동으로 프로비저닝하고 관리합니다. 리소스를 동적으로 스케일 업 및 스케일 다운하여 애플리케이션에서 사용하는 vCPU, 메모리 및 스토리지 리소스의 양에 대해 비용을 부과합니다. 이 서버리스 접근 방식을 사용하면 클러스터 관리에 대한 걱정 없이 JupyterLab 노트북에서 대화형 데이터 준비 워크로드를 실행하는 동시에 인스턴스 사용률과 비용 효율성을 높일 수 있습니다.

워크로드가 수명이 짧거나 간헐적이고 영구 클러스터가 필요하지 않은 경우, 인프라 관리 오버헤드를 피하면서 자동 리소스 프로비저닝 및 종료 기능을 제공하는 서버리스 환경을 선호하는 경우, 대화형 데이터 준비 작업이 주로 Apache Spark를 중심으로 수행되는 경우 대화형 데이터 준비 워크로드에 대해 EMR Serverless를 고려해야 합니다.

내용

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

연결 파라미터

네트워크 액세스 구성