Amazon SageMaker 데이터 랭글러를 사용하여 대량 데이터 준비 및 가져오기 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker 데이터 랭글러를 사용하여 대량 데이터 준비 및 가져오기

중요

데이터 랭글러를 사용하면 비용이 발생합니다. SageMaker 요금 및 가격의 전체 목록은 Amazon SageMaker 요금의 데이터 랭글러 탭을 참조하십시오. 추가 요금이 발생하지 않도록 하려면 작업을 마쳤으면 데이터 Data Wrangler 인스턴스를 종료하세요. 자세한 내용은 Data Wrangler 종료를 참조하세요.

데이터세트 그룹을 생성한 후, 아마존 데이터 랭글러 ( SageMaker Data Wrangler) 를 사용하여 40개 이상의 소스에서 Amazon Personalize 데이터세트로 데이터를 가져올 수 있습니다. 데이터 랭글러는 Amazon SageMaker Studio Classic의 기능으로, 데이터를 가져오고, 준비하고, 변환하고, 분석할 수 있는 end-to-end 솔루션을 제공합니다. Data Wrangler를 사용하여 데이터를 준비하고 작업 데이터 세트 또는 작업 상호 작용 데이터 세트로 가져올 수는 없습니다.

Data Wrangler를 사용하여 데이터를 준비하고 가져올 때는 데이터 흐름을 사용합니다. 데이터 흐름은 데이터 가져오기부터 시작하여 일련의 기계 학습 데이터 준비 단계를 정의합니다. 흐름에 단계를 추가할 때마다 Data Wrangler는 데이터를 변환하거나 시각화를 생성하는 등 데이터에 대한 조치를 취합니다.

다음은 Personalize의 데이터를 준비하기 위해 흐름에 추가할 수 있는 몇 가지 단계입니다.

  • 인사이트: Personalize의 특정 인사이트 단계를 흐름에 추가할 수 있습니다. 이러한 인사이트는 데이터에 대해 학습하고 개선하기 위해 어떤 조치를 취할 수 있는지 학습하는 데 도움이 될 수 있습니다.

  • 시각화: 시각화 단계를 추가하여 히스토그램 및 스캐터 차트와 같은 그래프를 생성할 수 있습니다. 그래프를 사용하면 데이터에서 특이값이나 누락된 값과 같은 문제를 검색하는 데 도움을 받을 수 있습니다.

  • 변환: Personalize의 구체적이고 일반적인 변환 단계를 사용하여 데이터가 Personalize 요구 사항을 충족하는지 확인할 수 있습니다. Personalize 변환을 사용하면 Personalize 데이터세트 유형에 따라 데이터 열을 필수 열에 매핑하는 데 도움을 받을 수 있습니다.

Personalize로 데이터를 가져오기 전에 Data Wrangler를 종료해야 하는 경우, Personalize 콘솔에서 Data Wrangler를 실행할 때 동일한 데이터세트 유형을 선택하여 중단한 부분으로 되돌아갈 수 있습니다. 또는 스튜디오 클래식을 통해 직접 데이터 랭글러에 액세스할 수도 있습니다. SageMaker

다음과 같이 Data Wrangler에서 Personalize로 데이터를 가져오는 것이 좋습니다. 변환, 시각화 및 분석 단계는 선택 사항이며 반복 가능하며 어떤 순서로든 완료할 수 있습니다.

  1. 권한 설정 - Amazon Personalize 및 SageMaker 서비스 역할에 대한 권한을 설정합니다. 그리고 사용자에 대한 권한을 설정하세요.

  2. Amazon Personalize 콘솔에서 SageMaker 스튜디오 클래식에서 데이터 랭글러 실행 - Amazon Personalize 콘솔을 사용하여 스튜디오 클래식에서 도메인을 구성하고 SageMaker 데이터 랭글러를 시작합니다. SageMaker

  3. Data Wrangler로 데이터 가져오기 - 40개 이상의 소스에서 Data Wrangler로 데이터를 가져옵니다. 소스는 다음과 같습니다. AWS Amazon Redshift, Amazon 또는 Amazon EMR Athena와 같은 서비스 및 스노우플레이크와 같은 타사 또는 DataBricks

  4. 데이터 변환 - Data Wrangler를 사용하여 Personalize 요구 사항을 충족하도록 데이터를 변환합니다.

  5. 데이터 시각화 및 분석 - Data Wrangler를 사용하여 데이터를 시각화하고 Personalize의 특정 인사이트를 통해 데이터를 분석합니다.

  6. Amazon Personalize로 데이터 처리 및 가져오기 - SageMaker 스튜디오 클래식 Jupyter 노트북을 사용하여 처리된 데이터를 Amazon Personalize로 가져옵니다.

추가 정보

다음 리소스는 Amazon SageMaker 데이터 랭글러 및 Amazon Personalize 사용에 대한 추가 정보를 제공합니다.