Studio Classic UI를 사용하여 표 형식 데이터에 대한 회귀 또는 분류 오토파일럿 실험 만들기 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Studio Classic UI를 사용하여 표 형식 데이터에 대한 회귀 또는 분류 오토파일럿 실험 만들기

중요

2023년 11월 30일부터 업데이트된 아마존 SageMaker 스튜디오 경험의 일환으로 오토파일럿의 UI가 Amazon SageMaker Canvas로 마이그레이션됩니다. SageMaker Canvas는 분석가와 일반 데이터 과학자에게 데이터 준비, 기능 엔지니어링, 알고리즘 선택, 교육 및 조정, 추론 등과 같은 작업을 위한 코드 없는 기능을 제공합니다. 사용자는 내장된 시각화 및 가정 분석을 활용하여 데이터와 다양한 시나리오를 탐색할 수 있으며, 자동화된 예측을 통해 모델을 쉽게 제작할 수 있습니다. Canvas는 컴퓨터 비전, 수요 예측, 지능형 검색, 제너레이티브 AI 등 다양한 사용 사례를 지원합니다.

SageMaker 스튜디오의 이전 경험인 Amazon Studio Classic의 사용자는 스튜디오 클래식의 오토파일럿 UI를 계속 사용할 수 있습니다. 코딩 경험이 있는 사용자는 기술 구현을 SDK 위해 지원되는 모든 API참조를 계속 사용할 수 있습니다.

지금까지 Studio Classic에서 오토파일럿을 사용하다가 Canvas로 마이그레이션하려는 경우 SageMaker SageMaker Canvas 애플리케이션을 만들고 사용할 수 있도록 사용자 프로필 또는 IAM 역할에 추가 권한을 부여해야 할 수 있습니다. 자세한 내용은 (선택 사항) Studio Classic의 오토파일럿에서 Canvas로 SageMaker 마이그레이션 단원을 참조하십시오.

이 안내서의 모든 UI 관련 지침은 Amazon Canvas로 마이그레이션하기 전의 Autopilot의 독립형 기능과 관련이 있습니다. SageMaker 이 지침을 따르는 사용자는 Studio Classic을 사용해야 합니다.

Amazon SageMaker Studio Classic UI를 사용하여 표 형식 데이터에 대한 분류 또는 회귀 문제에 대한 오토파일럿 실험을 생성할 수 있습니다. UI를 사용하면 실험 이름을 지정하고, 입력 및 출력 데이터의 위치를 제공하고, 예측할 대상 데이터를 지정할 수 있습니다. 선택적으로 해결하려는 문제의 유형 (회귀, 분류, 멀티클래스 분류) 을 지정하고, 모델링 전략 (누적 앙상블 또는 하이퍼파라미터 최적화) 을 선택하고, 오토파일럿 작업에서 데이터를 훈련하는 데 사용하는 알고리즘 목록을 선택하는 등의 작업을 수행할 수 있습니다.

UI에는 설명, 전환 스위치, 드롭다운 메뉴, 라디오 버튼 등이 있어 모델 후보 생성을 탐색하도록 도와드립니다. 실험이 실행된 후 실험을 비교하고 각 모델의 전처리 단계, 알고리즘 및 하이퍼파라미터 범위의 세부 정보를 자세히 살펴볼 수 있습니다. 선택적으로 설명 가능성 및 성능 보고서를 다운로드할 수 있습니다. 제공된 노트북을 사용하여 자동화된 데이터 탐색 결과 또는 후보 모델 정의를 확인합니다.

또는 에서 오토파일럿 API AutoML을 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 작업 생성 API AutoML을 사용할 수도 있습니다.

Studio Classic UI를 사용하여 오토파일럿 실험을 만들려면
  1. 에 로그인하고 왼쪽 탐색 창에서 Studio를 선택하고 도메인과 사용자 프로필을 선택한 다음 Studio를 엽니다. https://console.aws.amazon.com/sagemaker/

  2. Studio의 경우 왼쪽 상단 탐색 창에서 Studio Classic 아이콘을 선택합니다. 그러면 스튜디오 클래식 앱이 열립니다.

  3. 원하는 스페이스 또는 스튜디오 클래식 공간 만들기에서 스튜디오 클래식 애플리케이션을 실행하거나 열 수 있습니다. . 탭에서 AutoML 카드를 선택합니다. 그러면 새 AutoML 탭이 열립니다.

  4. AutoML 실험 생성을 선택합니다. 그러면 새 실험 생성 탭이 열립니다.

  5. 실험 및 데이터 세부 정보 섹션에 다음 정보를 입력합니다.

    1. 실험 이름 — 현재 계정별로 고유해야 AWS 리전 하며 최대 63자의 영숫자를 포함해야 합니다. 하이픈(-)은 포함할 수 있지만 공백은 포함할 수 없습니다.

    2. 입력 데이터 - 입력 데이터의 Amazon Simple Storage Service(S3) 버킷 위치를 제공합니다. 이 S3 버킷은 현재 AWS 리전에 있어야 합니다. Amazon에 쓰기 SageMaker 권한이 있는 URL s3:// 형식이어야 합니다. 파일은 Parquet 형식이어야 하며 최소 500개의 행을 포함해야 합니다. CSV 찾아보기를 선택하여 사용 가능한 경로를 스크롤하고 미리보기를 선택하여 입력 데이터의 샘플을 확인합니다.

    3. S3 입력이 매니페스트 파일입니까? - 매니페스트 파일에는 입력 데이터가 있는 메타데이터가 포함됩니다. 메타데이터는 Amazon S3의 데이터 위치를 지정합니다. 또한 데이터 형식을 지정하는 방법과 모델을 훈련할 때 사용할 데이터 세트의 속성을 지정합니다. 레이블이 지정된 데이터를 Pipe 모드에서 스트리밍할 때는 사전 처리 대신 매니페스트 파일을 사용할 수 있습니다.

    4. 데이터 자동 분할이란? - Autopilot은 훈련 및 검증 데이터를 위해 데이터를 80~ 20%로 분할할 수 있습니다. 사용자 지정 분할을 선호하는 경우 분할 비율 지정을 선택합니다. 사용자 지정 데이터 세트를 검증에 사용하려면 검증 세트 제공을 선택합니다.

    5. 출력 데이터 위치(S3 버킷) - 출력 데이터를 저장하려는 S3 버킷 위치의 이름입니다. 이 버킷의 URL 경우 Amazon에 쓰기 SageMaker 권한이 있는 Amazon S3 형식이어야 합니다. S3 버킷이 현재 AWS 리전에 있어야 합니다. 또한 Autopilot은 입력 데이터와 동일한 위치에 이를 자동으로 생성할 수 있습니다.

  6. 다음: 대상 및 기능을 선택합니다. 대상 및 기능 탭이 열립니다.

  7. 대상 및 기능 섹션에서:

    • 모델 예측의 대상으로 설정할 열을 선택합니다.

    • 선택적으로, 샘플 가중치 섹션에 샘플 가중치 열의 이름을 전달하여 훈련 및 평가 중에 데이터 세트 행에 가중치를 적용하도록 요청할 수 있습니다. 사용 가능한 객체 지표에 대한 자세한 내용은 Autopilot 가중치 지표을 참조하세요.

      참고

      샘플 가중치에 대한 지원은 앙상블 모드에서만 사용할 수 있습니다.

    • 훈련할 기능을 선택하고 데이터 유형을 변경할 수도 있습니다. 사용 가능한 데이터 유형은Text, Numerical, Categorical, Datetime, Sequence, 및 Auto입니다. 기본적으로 모든 기능이 선택됩니다.

  8. 다음: 훈련 방법을 선택합니다. 훈련 방법 탭이 열립니다.

  9. 교육 방법 섹션에서 교육 옵션 (앙상블링, 하이퍼파라미터 최적화 (HPO) 또는 자동을 선택하면 Autopilot이 데이터세트 크기에 따라 자동으로 교육 방법을 선택하도록 할 수 있습니다. 각 훈련 모드는 데이터 세트에서 사전 정의된 알고리즘 세트를 실행하여 모델 후보를 훈련시킵니다. 기본적으로 Autopilot은 주어진 훈련 모드에 사용할 수 있는 모든 알고리즘을 미리 선택합니다. 모든 알고리즘을 사용하여 Autopilot 훈련 실험을 실행하거나 나만의 서브셋을 선택할 수 있습니다.

    훈련 모드 및 사용 가능한 알고리즘에 대한 자세한 내용은 훈련 모드 및 알고리즘 페이지의 Autopilot 훈련 모드 섹션을 참조하세요.

  10. 다음: 배포 및 고급 설정을 선택하여 배포 및 고급 설정 탭을 엽니다. 설정에는 자동 표시 엔드포인트 이름, 기계 학습 문제 유형, 실험 실행을 위한 추가 선택 사항이 포함됩니다.

    1. 배포 설정 - Autopilot은 자동으로 엔드포인트를 생성하고 모델을 배포할 수 있습니다.

      자동으로 생성된 엔드포인트에 자동 배포하거나 사용자 지정 배포를 위한 엔드포인트 이름을 제공하려면 자동 배포에서 토글을 로 설정합니다. Amazon Data Wrangler에서 데이터를 가져오는 경우, SageMaker Data Wrangler에서 변환을 사용하거나 사용하지 않고 최적의 모델을 자동 배포할 수 있는 추가 옵션이 있습니다.

      참고

      Data Wrangler 흐름에 groupby, join 또는 concatenate와 같은 다중 행 작업이 포함된 경우 이러한 변환으로 자동 배포할 수 없습니다. 자세한 내용은 Automatically Train Models on Your Data Flow를 참조하세요.

    2. 고급 설정(선택 사항) - Autopilot은 문제 유형 정의, Autopilot 작업 및 시험의 시간 제약, 보안, 암호화 설정과 같은 실험 파라미터를 수동으로 설정하는 추가 제어 기능을 제공합니다.

      참고

      오토파일럿은 기본값 설정을 지원하여 Studio Classic UI를 사용한 오토파일럿 실험의 구성을 간소화합니다. 관리자는 Studio Classic 수명 주기 구성 (LCC) 을 사용하여 구성 파일에 인프라, 네트워킹 및 보안 값을 설정하고 작업의 고급 설정을 미리 채울 수 있습니다. AutoML

      관리자가 Autopilot 실험의 사용자 지정을 자동화하는 방법을 알아보려면 Autopilot 실험의 기본 파라미터 구성하기(관리자용)을 참조하세요.

      1. 기계 학습 문제 유형 - Autopilot은 데이터 세트에서 지도 학습 문제의 유형을 자동으로 유추할 수 있습니다. 수동으로 선택하려는 경우 기계 학습 문제 유형 선택 드롭다운 메뉴를 사용합니다. 기본값은 자동입니다. 경우에 따라 정확하게 유추할 수 없습니다. SageMaker 이런 경우에는 해당 작업이 성공할 수 있도록 값을 제공해야 합니다. 특히 다음 이벤트 유형 중에서 선택할 수 있습니다.

        • 바이너리 분류 - 바이너리 분류는 특성에 따라 사전 정의된 상호 배타적 분류 두 가지 중 하나에 입력 데이터를 할당합니다. 예를 들어, 질병에 걸렸는지 여부를 판단하는 진단 테스트 결과를 기반으로 의료 진단이 이루어집니다.

        • 회귀 - 회귀 분석은 입력 변수(독립 변수 또는 특징이라고도 함)와 대상 변수(종속 변수라고도 함) 간 관계를 설정합니다. 이 관계는 입력 변수를 연속 출력에 매핑하는 수학 함수 또는 모델을 통해 캡처됩니다. 욕실의 평방 피트 및 개수, 주식 시장 동향 또는 판매량 추정 등의 특징을 기반으로 주택 가격을 예측하는 등의 작업에 주로 사용됩니다.

        • 멀티클래스 분류 - 멀티클래스 분류는 정치, 금융, 철학 등 텍스트 문서와 가장 관련이 있는 주제에 대한 예측과 같이, 속성을 기반으로 여러 클래스 중 하나에 입력 데이터를 할당합니다.

      2. 런타임 - 최대 시간 제한을 정의할 수 있습니다. 시간 제한에 도달하면 시간 제한을 초과하는 시험 및 작업은 자동으로 중지됩니다.

      3. 액세스 — Amazon SageMaker Studio Classic에서 사용자를 대신하여 AWS 서비스 (특히 Amazon S3) 에 대한 임시 액세스 권한을 부여하는 역할을 선택할 수 있습니다. SageMaker 역할이 명시적으로 정의되지 않은 경우 Studio Classic은 사용자 프로필에 연결된 기본 SageMaker 실행 역할을 자동으로 사용합니다.

      4. 암호화 — 저장된 데이터의 보안을 강화하고 무단 액세스로부터 데이터를 보호하려면 Amazon S3 버킷과 Studio Classic 도메인에 연결된 Amazon Elastic Block Store EBS (Amazon) 볼륨의 데이터를 암호화하는 암호화 키를 지정할 수 있습니다.

      5. 보안 — SageMaker 작업이 실행되는 가상 사설 클라우드 (AmazonVPC) 를 선택할 수 있습니다. Amazon이 입력 및 출력 Amazon VPC S3 버킷에 액세스할 수 있는지 확인하십시오.

      6. 프로젝트 - 이 오토파일럿 실험 및 모델 출력과 연결할 SageMaker 프로젝트 이름을 지정합니다. 프로젝트를 지정하면 Autopilot은 프로젝트에 실험에 태그를 지정합니다. 이를 통해 이 프로젝트와 관련된 모델 출력을 알 수 있습니다.

      7. 태그 - 태그는 키-값 쌍의 배열입니다. 태그를 사용하여 리소스 (예: 목적 AWS 서비스, 소유자 또는 환경) 를 분류할 수 있습니다.

    3. Autopilot 실험을 생성하기 전에 다음: 검토 및 생성을 선택하여 Autopilot 실험의 요약을 확인합니다.

  11. 실험 만들기를 선택합니다. 실험을 만들면 에서 오토파일럿 작업이 시작됩니다. SageMaker Autopilot은 실험 상태, 노트북의 데이터 탐색 프로세스 및 모델 후보에 대한 정보, 생성된 모델 및 보고서 목록, 실험 생성에 사용된 작업 프로필을 제공합니다.

    Autopilot 작업으로 생성된 노트북에 대한 자세한 내용은 SageMaker AutoML 작업을 관리하기 위해 생성된 Amazon 오토파일럿 노트북을 참조하세요. 각 모델 후보 및 보고서에 대한 세부 정보는 Amazon SageMaker 오토파일럿으로 생성된 모델 을 참조하세요.

참고

불필요한 비용 발생을 방지하려면: 더 이상 필요하지 않은 모델을 배포한 경우 엔드포인트 및 배포 중 생성된 리소스를 삭제합니다. 지역별 인스턴스 요금 정보는 Amazon SageMaker Pricing에서 확인할 수 있습니다.