Amazon 데이터 랭글러로 ML SageMaker 데이터 준비하기 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon 데이터 랭글러로 ML SageMaker 데이터 준비하기

중요

아마존 SageMaker 데이터 랭글러가 아마존 SageMaker 캔버스에 통합되었습니다. SageMaker Canvas의 새로운 데이터 랭글러 환경에서는 시각적 인터페이스 외에도 자연어 인터페이스를 사용하여 데이터를 탐색하고 변환할 수 있습니다. Canvas의 데이터 랭글러에 SageMaker 대한 자세한 내용은 을 참조하십시오. 데이터 준비

아마존 SageMaker 데이터 랭글러 (Data Wrangler) 는 아마존 SageMaker 스튜디오 클래식의 기능으로, 데이터를 가져오고, 준비하고, 변환하고, 특징화하고, 분석할 수 있는 end-to-end 솔루션을 제공합니다. 사용자는 Data Wrangler 데이터 준비 플로우를 기계 학습(ML) 워크플로에 통합하여 코딩을 거의 또는 전혀 사용하지 않고도 데이터 사전 처리 및 특성 추출을 단순화하고 간소화할 수 있습니다. 나만의 Python 스크립트와 변환을 추가하여 워크플로를 사용자 지정할 수도 있습니다.

Data Wrangler는 기계 학습 애플리케이션에 사용할 데이터를 분석하고 준비하는 데 도움이 되는 다음과 같은 핵심 기능을 제공합니다.

  • 가져오기 — 아마존 심플 스토리지 서비스 (Amazon S3), Amazon Athena (Athena), Amazon Redshift, Snowflake, 데이터브릭스에 연결하고 데이터를 가져올 수 있습니다.

  • 데이터 플로우 - 데이터 플로우를 생성하여 일련의 ML 데이터 준비 단계를 정의합니다. 사용자는 플로우를 사용하여 다양한 데이터 소스의 데이터 세트를 결합하고, 데이터 세트에 적용할 변환의 수와 유형을 식별하고, ML 파이프라인에 통합할 수 있는 데이터 준비 워크플로를 정의할 수 있습니다.

  • 변환 - 문자열, 벡터, 숫자 데이터 형식 지정 도구와 같은 표준 변환을 사용하여 데이터 세트를 정리하고 변환합니다. 텍스트, 날짜/시간 임베딩, 범주형 인코딩과 같은 변환을 사용하여 데이터를 특징화할 수 있습니다.

  • 데이터 인사이트 생성 - Data Wrangler Data Insights 및 Quality Report를 사용하여 데이터 품질을 자동으로 확인하고 데이터의 이상 항목을 감지합니다.

  • 분석 - 플로우의 어느 시점에서든 데이터 세트의 특징을 분석할 수 있습니다. Data Wrangler에는 산점 및 히스토그램과 같은 기본 제공 데이터 시각화 도구뿐만 아니라 대상 누 분석 및 특징 상관 관계를 파악하기 위한 빠른 모델링과 같은 데이터 분석 도구가 포함되어 있습니다.

  • 내보내기 - 데이터 준비 워크플로를 다른 위치로 내보냅니다. 다음은 예제 위치입니다.

    • Amazon Simple Storage Service(S3) 버킷

    • Amazon SageMaker 모델 구축 파이프라인 — SageMaker 파이프라인을 사용하여 모델 배포를 자동화합니다. 사용자는 변환한 데이터를 파이프라인으로 직접 내보낼 수 있습니다.

    • Amazon SageMaker Feature Store — 기능과 해당 데이터를 중앙 집중식 스토어에 저장합니다.

    • Python 스크립트 - 사용자 지정 워크플로를 위해 데이터와 해당 변환을 Python 스크립트에 저장합니다.

Data Wrangler 사용을 시작하려면 Data Wrangler 시작하기을 참고하세요.

중요

Data Wrangler는 더 이상 Jupyter Lab 버전 1(JL1)을 지원하지 않습니다. 최신 기능 및 업데이트를 이용하려면 Jupyter Lab 버전 3으로 업데이트하세요. 업그레이드에 대한 자세한 내용은 콘솔에서 애플리케이션 JupyterLab 버전 보기 및 업데이트 섹션을 참조하세요.

중요

이 안내서의 정보 및 절차는 Amazon SageMaker Studio Classic의 최신 버전을 사용합니다. Studio Classic을 최신 버전으로 업데이트하는 방법에 대한 자세한 내용은 을 참조하십시오아마존 SageMaker 스튜디오 클래식 UI 개요.

스튜디오 클래식 버전 1.3.0 이상을 사용해야 합니다. 다음 절차를 사용하여 Amazon SageMaker Studio Classic을 열고 실행 중인 버전을 확인하십시오.

Studio Classic을 열고 버전을 확인하려면 다음 절차를 참조하십시오.

  1. 다음 단계를 사용하여 Amazon SageMaker Studio 사전 조건 Classic을 통해 데이터 랭글러에 액세스할 수 있습니다.

  2. Studio Classic을 시작하는 데 사용할 사용자 옆에서 앱 시작을 선택합니다.

  3. Studio를 선택합니다.

  4. Studio Classic이 로드되면 파일, 새로 만들기, 터미널 순으로 선택합니다.

    4단계에서 설명한 Studio Classic 컨텍스트 메뉴 옵션.
  5. Studio Classic을 시작한 후 파일, 새로 만들기, 터미널 순으로 선택합니다.

  6. Studio Classic 인스턴스의 버전을 cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@" 인쇄하려면 Enter를 입력하십시오. Snowflake를 사용하려면 스튜디오 클래식 버전 1.3.0이 있어야 합니다.

    6단계의 명령을 복사하여 붙여넣은 상태로 Studio Classic에서 터미널 창이 열렸습니다.

내에서 Amazon SageMaker Studio Classic을 업데이트할 수 AWS Management Console있습니다. 스튜디오 클래식 업데이트에 대한 자세한 내용은 을 참조하십시오아마존 SageMaker 스튜디오 클래식 UI 개요.