쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Studio에서 Amazon EMR Serverless 애플리케이션 또는 Amazon EMR 클러스터를 사용하여 대규모 데이터 준비

포커스 모드
Studio에서 Amazon EMR Serverless 애플리케이션 또는 Amazon EMR 클러스터를 사용하여 대규모 데이터 준비 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker Studio와 레거시 버전인 Studio Classic은 데이터 과학자와 기계 학습(ML) 엔지니어에게 대규모로 데이터 분석 및 데이터 준비를 수행할 수 있는 도구를 제공합니다. 대량의 데이터를 분석, 변환, 준비하는 것은 모든 데이터 과학 및 ML 워크플로우의 기본 단계입니다. Studio와 Studio Classic 모두 Amazon EMR과의 통합 기능이 기본 제공되어 있으므로 사용자가 JupyterLab 노트북 내에서 대규모 대화형 데이터 준비 및 기계 학습 워크플로를 관리할 수 있습니다.

Amazon EMRApache Spark, Apache Hive, Presto, HBase, Flink 등 AWS 에서 오픈 소스 분석 프레임워크를 사용하여 페타바이트 규모의 분산형 데이터 처리 작업을 실행하는 데 도움이 되는 리소스를 갖춘 관리형 빅 데이터 플랫폼입니다. Studio 및 Studio Classic과 Amazon EMR의 통합을 통해, JupyterLab 노트북이나 Studio Classic 노트북을 떠나지 않고도 Amazon EMR 클러스터를 만들고, 검색하고, 탐색하고, 연결할 수 있습니다. 또한, 노트북 내에서 곧바로 Spark UI에 클릭 한 번으로 액세스하여 Spark 워크로드를 모니터링하고 디버깅할 수 있습니다.

대량의 데이터를 포함하는 대규모, 장기 실행 또는 복잡한 데이터 처리 요구 사항이 있거나, 광범위한 사용자 지정 및 다른 서비스와의 통합이 필요하거나, 사용자 지정 애플리케이션을 실행해야 하거나, Apache Spark 이외의 다양한 분산 데이터 처리 프레임워크를 실행할 계획인 경우 데이터 준비 워크로드에 Amazon EMR 클러스터를 고려해야 합니다.

SageMaker 배포 이미지 1.10 이상을 사용하면 SageMaker AI Studio의 JupyterLab 노트북에서 직접 대화형 EMR Serverless 애플리케이션에 연결할 수 있습니다. Studio를 EMR Serverless와 통합하면 Amazon EMR 클러스터를 구성, 관리 또는 규모 조정하지 않고도 Apache SparkApache Hive와 같은 오픈 소스 빅 데이터 분석 프레임워크를 실행할 수 있습니다. EMR Serverless는 EMR Serverless 애플리케이션의 요구 사항에 따라 기본 컴퓨팅 및 메모리 리소스를 자동으로 프로비저닝하고 관리합니다. 리소스를 동적으로 스케일 업 및 스케일 다운하여 애플리케이션에서 사용하는 vCPU, 메모리 및 스토리지 리소스의 양에 대해 비용을 부과합니다. 이 서버리스 접근 방식을 사용하면 클러스터 관리에 대한 걱정 없이 JupyterLab 노트북에서 대화형 데이터 준비 워크로드를 실행하는 동시에 인스턴스 사용률과 비용 효율성을 높일 수 있습니다.

워크로드가 수명이 짧거나 간헐적이고 영구 클러스터가 필요하지 않은 경우, 인프라 관리 오버헤드를 피하면서 자동 리소스 프로비저닝 및 종료 기능을 제공하는 서버리스 환경을 선호하는 경우, 대화형 데이터 준비 작업이 주로 Apache Spark를 중심으로 수행되는 경우 대화형 데이터 준비 워크로드에 대해 EMR Serverless를 고려해야 합니다.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.