기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
자습서: SageMaker Canvas에서 기계 학습 워크플로 구축 end-to-end
이 자습서에서는 Amazon SageMaker Canvas를 end-to-end 사용하여 기계 학습(ML) 워크플로를 안내합니다. SageMaker Canvas는 데이터를 준비하고 ML 모델을 훈련 및 배포하는 데 사용할 수 있는 시각적 코드 없는 인터페이스입니다. 자습서의 경우 NYC 택시 데이터 세트를 사용하여 지정된 주행의 요금 금액을 예측하는 모델을 훈련합니다. SageMaker Canvas 애플리케이션 내에서 데이터 품질 평가, 데이터 문제 해결, 데이터를 훈련 및 테스트 세트로 분할, 모델 훈련 및 평가, 예측, 훈련된 모델 배포와 같은 주요 ML 작업에 대한 실습 경험을 얻을 수 있습니다.
중요
이 자습서에서는 사용자 또는 관리자가 AWS 계정을 생성했다고 가정합니다. AWS 계정 생성에 대한 자세한 내용은 시작하기: 처음 AWS 사용하시나요?를 참조하세요.
설정
Amazon SageMaker 도메인은 모든 Amazon SageMaker 환경 및 리소스를 관리할 수 있는 중앙 집중식 장소입니다. 도메인은 에서 작업의 가상 경계 역할을 하여 기계 학습(ML) 리소스에 대한 격리 및 액세스 제어를 SageMaker제공합니다.
Amazon SageMaker Canvas를 시작하려면 사용자 또는 관리자가 콘솔로 SageMaker 이동하여 Amazon SageMaker 도메인을 생성해야 합니다. 도메인에는 SageMaker Canvas를 실행하는 데 필요한 스토리지 및 컴퓨팅 리소스가 있습니다. 도메인 내에서 Amazon S3 버킷에 액세스하고 모델을 배포하도록 SageMaker Canvas를 구성합니다. 다음 절차에 따라 빠른 도메인을 설정하고 SageMaker Canvas 애플리케이션을 생성합니다.
SageMaker Canvas를 설정하려면
-
SageMaker 콘솔
로 이동합니다. -
왼쪽 탐색에서 SageMaker Canvas를 선택합니다.
-
SageMaker 도메인 생성을 선택합니다.
-
설정을 선택합니다. 도메인은 설정하는 데 몇 분 정도 걸릴 수 있습니다.
앞의 절차에서는 빠른 도메인 설정을 사용했습니다. 고급 설정을 수행하여 권한, 통합 및 암호화를 포함하여 계정 구성의 모든 측면을 제어할 수 있습니다. 사용자 지정 설정에 대한 자세한 내용은 섹션을 참조하세요Amazon에 대한 사용자 지정 설정 사용 SageMaker.
기본적으로 빠른 도메인 설정을 수행하면 모델을 배포할 수 있는 권한이 제공됩니다. 표준 도메인을 통해 사용자 지정 권한을 설정하고 모델 배포 권한을 수동으로 부여해야 하는 경우 섹션을 참조하세요권한 관리.
흐름 생성
Amazon SageMaker Canvas는 사용자가 광범위한 코딩 또는 기계 학습 전문성 없이 기계 학습 모델을 빌드, 훈련 및 배포할 수 있는 기계 학습 플랫폼입니다. Amazon SageMaker Canvas의 강력한 기능 중 하나는 Amazon S3와 같은 다양한 소스에서 대규모 데이터 세트를 가져오고 작업하는 기능입니다.
이 자습서에서는 NYC 택시 데이터 세트를 사용하여 Amazon SageMaker Canvas Data Wrangler 데이터 흐름을 사용하여 각 주행의 요금 금액을 예측합니다. 다음 절차에서는 수정된 버전의 NYC 택시 데이터 세트를 데이터 흐름으로 가져오는 단계를 간략하게 설명합니다.
참고
처리를 개선하기 위해 SageMaker Canvas는 데이터 샘플을 가져옵니다. 기본적으로 50,000개의 행을 무작위로 샘플링합니다.
NYC 택시 데이터 세트를 가져오려면
-
SageMaker Canvas 홈 페이지에서 Data Wrangler 를 선택합니다.
-
데이터 가져오기를 선택합니다.
-
테이블 형식 을 선택합니다.
-
데이터 소스 옆의 도구 상자를 선택합니다.
-
드롭다운에서 Amazon S3를 선택합니다.
-
입력 S3 엔드포인트 에 대해 지정합니다.
s3://
amazon-sagemaker-data-wrangler-documentation-artifacts
/canvas-single-file-nyc-taxi-dataset
.csv -
이동 을 선택합니다.
-
데이터 세트 옆의 확인란을 선택합니다.
-
데이터 미리 보기를 선택합니다.
-
저장(Save)을 선택합니다.
데이터 품질 및 인사이트 보고서 1(샘플)
Amazon SageMaker Canvas로 데이터 세트를 가져온 후 데이터 샘플에 대한 데이터 품질 및 인사이트 보고서를 생성할 수 있습니다. 이를 사용하여 데이터 세트에 대한 귀중한 인사이트를 제공합니다. 보고서는 다음을 수행합니다.
-
데이터 세트의 완전성을 평가합니다.
-
누락된 값과 이상치를 식별합니다.
모델 성능에 영향을 미칠 수 있는 다른 잠재적 문제를 식별할 수 있습니다. 또한 대상 변수와 관련된 각 기능의 예측력을 평가하여 해결하려는 문제에 가장 관련성이 높은 기능을 식별할 수 있습니다.
보고서의 인사이트를 사용하여 요금 금액을 예측할 수 있습니다. 요금 금액 열을 대상 변수로 지정하고 회귀를 문제 유형으로 선택하면 보고서는 요금 가격과 같은 연속 값을 예측하기 위한 데이터 세트의 적합성을 분석합니다. 보고서에 따르면 연도 및 hour_of_day와 같은 기능은 선택한 대상 변수에 대한 예측력이 낮아 귀중한 인사이트를 얻을 수 있습니다.
데이터 세트에서 50,000개의 행 샘플에 대한 데이터 품질 및 인사이트 보고서를 가져오려면 다음 절차를 사용합니다.
샘플에 대한 보고서를 가져오려면
-
데이터 유형 노드 옆의 팝업 창에서 데이터 인사이트 가져오기를 선택합니다.
-
분석 이름 에 보고서의 이름을 지정합니다.
-
문제 유형 에서 회귀 를 선택합니다.
-
대상 열 에서 요금 금액 을 선택합니다.
-
생성(Create)을 선택합니다.
데이터 샘플에 대한 데이터 품질 및 인사이트 보고서를 검토할 수 있습니다. 보고서에 따르면 연도 및 시간_of_day 기능은 대상 변수인 요금 금액을 예측하지 않습니다.
탐색 상단에서 데이터 흐름의 이름을 선택하여 다시 탐색합니다.
하루 중 1년 시간 삭제
보고서의 인사이트를 사용하여 연도 및 시간 열을 삭제하여 특성 공간을 간소화하고 잠재적으로 모델 성능을 개선하고 있습니다.
Amazon SageMaker Canvas는 이러한 데이터 변환을 수행할 수 있는 사용자 친화적인 인터페이스와 도구를 제공합니다.
Amazon SageMaker Canvas의 Data Wrangler 도구를 사용하여 NYC 택시 데이터 세트에서 연도 및 시간_of_day 열을 삭제하려면 다음 절차를 사용합니다.
-
데이터 유형 옆의 아이콘을 선택합니다.
-
단계 추가를 선택합니다.
-
검색 표시줄에서 삭제 열 을 작성합니다.
-
열 관리를 선택합니다.
-
열 삭제 를 선택합니다.
-
열을 삭제하려면 연도 및 hour_of_day 열을 선택합니다.
-
변환이 데이터를 변경하는 방법을 보려면 미리 보기를 선택합니다.
-
추가를 선택합니다.
이전 절차를 기반으로 사용하여 SageMaker Canvas에서 다른 모든 변환을 추가할 수 있습니다.
데이터 품질 및 인사이트 보고서 2(전체 데이터 세트)
이전 인사이트 보고서에서는 NYC 택시 데이터 세트 샘플을 사용했습니다. 두 번째 보고서에서는 모델 성능에 영향을 미치는 잠재적 문제를 식별하기 위해 전체 데이터 세트에 대한 포괄적인 분석을 실행하고 있습니다.
다음 절차에 따라 전체 데이터 세트에 대한 데이터 품질 및 인사이트 보고서를 생성합니다.
전체 데이터 세트에 대한 보고서를 가져오려면
-
열 삭제 노드 옆에 있는 아이콘을 선택합니다.
-
데이터 인사이트 얻기를 선택합니다.
-
분석 이름 에 보고서의 이름을 지정합니다.
-
문제 유형 에서 회귀 를 선택합니다.
-
대상 열 에서 요금 금액 을 선택합니다.
-
데이터 크기 에서 전체 데이터 세트 를 선택합니다.
-
생성(Create)을 선택합니다.
다음은 인사이트 보고서의 이미지입니다.
다음과 같은 문제가 표시됩니다.
-
중복된 행
-
왜곡된 대상
중복된 행은 데이터 유출로 이어질 수 있으며, 여기서 모델은 훈련 및 테스트 중에 동일한 데이터에 노출됩니다. 이는 지나치게 낙관적인 성능 지표로 이어질 수 있습니다. 중복 행을 제거하면 모델이 고유한 인스턴스에 대해 훈련되어 데이터 유출 위험을 줄이고 모델의 일반화 기능을 개선할 수 있습니다.
이 경우 요금 금액 열과 같이 비스듬한 대상 변수 분포로 인해 클래스가 불균형해질 수 있으며, 이 경우 모델이 과반수 클래스에 편향될 수 있습니다. 이로 인해 소수자 클래스의 성능이 저하될 수 있으며, 이는 드물거나 과소 표현된 인스턴스를 정확하게 예측하는 것이 중요한 시나리오에서 특히 문제가 될 수 있습니다.
데이터 품질 문제 해결
이러한 문제를 해결하고 모델링을 위한 데이터 세트를 준비하기 위해 다음 변환을 검색하고 적용할 수 있습니다.
-
행 관리 변환을 사용하여 중복 항목을 삭제합니다.
-
견고한 표준 편차 숫자 이상치 를 사용하여 요금 금액 열의 이상치를 처리합니다.
-
표준 편차 숫자 이상치 를 사용하여 트립 거리 및 트립 지속 시간 열의 이상치를 처리합니다.
-
범주형 인코딩을 사용하여 요금 코드 ID , 결제 유형 , 추가 플래그 및 요금 플래그 열을 부동 소수점으로 인코딩합니다.
변환을 적용하는 방법을 잘 모르는 경우 섹션을 참조하세요. 하루 중 1년 시간 삭제
이러한 데이터 품질 문제를 해결하고 적절한 변환을 적용하면 데이터 세트의 모델링 적합성을 개선할 수 있습니다.
데이터 품질 및 빠른 모델 정확도 확인
변환을 적용하여 중복 행 제거와 같은 데이터 품질 문제를 해결한 후 최종 데이터 품질 및 인사이트 보고서를 생성합니다. 이 보고서는 적용된 변환이 문제를 해결했고 데이터 세트가 이제 모델링에 적합한 상태인지 확인하는 데 도움이 됩니다.
최종 데이터 품질 및 인사이트 보고서를 검토할 때 플래그가 지정된 주요 데이터 품질 문제가 표시되지 않을 것으로 예상해야 합니다. 보고서에는 다음이 표시되어야 합니다.
-
대상 변수가 더 이상 왜곡되지 않습니다.
-
이상치 또는 중복된 행이 없습니다.
또한 보고서는 변환된 데이터 세트에 대해 훈련된 기준 모델을 기반으로 빠른 모델 점수를 제공해야 합니다. 이 점수는 모델의 잠재적 정확도 및 성능의 초기 지표 역할을 합니다.
다음 절차에 따라 데이터 품질 및 인사이트 보고서를 생성합니다.
데이터 품질 및 인사이트 보고서를 생성하려면
-
열 삭제 노드 옆에 있는 아이콘을 선택합니다.
-
데이터 인사이트 얻기를 선택합니다.
-
분석 이름 에 보고서의 이름을 지정합니다.
-
문제 유형 에서 회귀 를 선택합니다.
-
대상 열 에서 요금 금액 을 선택합니다.
-
데이터 크기 에서 전체 데이터 세트 를 선택합니다.
-
생성(Create)을 선택합니다.
데이터를 훈련 및 테스트 세트로 분할
모델을 훈련하고 성능을 평가하기 위해 데이터 분할 변환을 사용하여 데이터를 훈련 및 테스트 세트로 분할합니다.
기본적으로 SageMaker Canvas는 무작위 분할을 사용하지만 다음 유형의 분할도 사용할 수 있습니다.
-
주문됨
-
계층화
-
키로 분할
분할 비율을 변경하거나 분할을 추가할 수 있습니다.
이 자습서에서는 스플릿의 모든 기본 설정을 사용합니다. 이름을 보려면 데이터 세트를 두 번 클릭해야 합니다. 훈련 데이터 세트의 이름은 데이터 세트(트레인)입니다.
Ordinal 인코딩 노드 옆에 분할 데이터 변환을 적용합니다.
훈련 모델
데이터를 분할한 후 모델을 훈련할 수 있습니다. 이 모델은 데이터의 패턴에서 학습합니다. 이를 사용하여 예측하거나 인사이트를 찾을 수 있습니다.
SageMaker Canvas에는 빠른 빌드와 표준 빌드가 모두 있습니다. 표준 빌드를 사용하여 데이터에 대한 최고 성능 모델을 훈련합니다.
모델 훈련을 시작하기 전에 먼저 훈련 데이터 세트를 SageMaker Canvas 데이터 세트로 내보내야 합니다.
데이터 세트를 내보내려면
-
훈련 데이터 세트의 노드 옆에 있는 아이콘을 선택하고 내보내기를 선택합니다.
-
SageMaker Canvas 데이터 세트 를 선택합니다.
-
데이터 세트를 내보내려면 내보내기를 선택합니다.
데이터 세트를 생성한 후 생성한 SageMaker Canvas 데이터 세트에서 모델을 훈련할 수 있습니다. 모델 훈련에 대한 자세한 내용은 사용자 지정 수치형 또는 범주형 예측 모델 구축 항목을 참조하세요.
모델 평가 및 예측
기계 학습 모델을 훈련한 후에는 성능을 평가하여 요구 사항을 충족하고 보이지 않는 데이터에서 잘 작동하는지 확인하는 것이 중요합니다. Amazon SageMaker Canvas는 모델의 정확도를 평가하고, 예측을 검토하고, 강점과 약점에 대한 인사이트를 얻을 수 있는 사용자 친화적 인터페이스를 제공합니다. 인사이트를 사용하여 배포 및 개선이 필요한 잠재적 영역에 대해 정보에 입각한 결정을 내릴 수 있습니다.
모델을 배포하기 전에 다음 절차에 따라 모델을 평가합니다.
모델 평가하기
-
내 모델 을 선택합니다.
-
생성한 모델을 선택합니다.
-
버전에서 모델에 해당하는 버전을 선택합니다.
이제 모델 평가 지표를 볼 수 있습니다.
모델을 평가한 후 새 데이터를 예측할 수 있습니다. 생성한 테스트 데이터 세트를 사용하고 있습니다.
예측에 테스트 데이터 세트를 사용하려면 테스트 데이터 세트를 SageMaker Canvas 데이터 세트로 변환해야 합니다. SageMaker Canvas 데이터 세트는 모델이 해석할 수 있는 형식입니다.
다음 절차에 따라 테스트 데이터 세트에서 SageMaker Canvas 데이터 세트를 생성합니다.
SageMaker Canvas 데이터 세트를 생성하려면
-
데이터 세트(테스트) 데이터 세트 옆에 있는 라디오 아이콘을 선택합니다.
-
내보내기를 선택합니다.
-
SageMaker Canvas 데이터 세트 를 선택합니다.
-
데이터 세트 이름 에 데이터 세트의 이름을 지정합니다.
-
내보내기를 선택합니다.
다음 절차에 따라 예측합니다. 아직 분석 페이지에 있다고 가정합니다.
테스트 데이터 세트에 대한 예측을 수행하려면
-
예측을 선택합니다.
-
수동 을 선택합니다.
-
내보낸 데이터 세트를 선택합니다.
-
예측 생성을 선택합니다.
-
SageMaker Canvas가 예측 생성을 완료하면 데이터 세트 오른쪽에 있는 아이콘을 선택합니다.
-
미리 보기를 선택하여 예측을 봅니다.
모델 배포
모델을 평가한 후 엔드포인트에 배포할 수 있습니다. 엔드포인트에 요청을 제출하여 예측을 가져올 수 있습니다.
다음 절차에 따라 모델을 배포합니다. 예측 페이지에 여전히 있다고 가정합니다.
모델을 배포하려면
-
배포(Deploy)를 선택합니다.
-
배포 만들기를 선택합니다.
-
배포(Deploy)를 선택합니다.
정리
자습서를 성공적으로 완료했습니다. 추가 요금이 발생하지 않도록 하려면 사용하지 않는 리소스를 삭제합니다.
다음 절차에 따라 생성한 엔드포인트를 삭제합니다. 배포 페이지에 여전히 있다고 가정합니다.
엔드포인트를 삭제하려면
-
배포 오른쪽에 있는 라디오 버튼을 선택합니다.
-
배포 삭제를 선택합니다.
-
Delete(삭제)를 선택합니다.
배포를 삭제한 후 SageMaker Canvas 내에서 생성한 데이터 세트를 삭제합니다. 다음 절차에 따라 데이터 세트를 삭제합니다.
데이터 세트를 삭제하려면
-
왼쪽 탐색에서 데이터 세트를 선택합니다.
-
분석한 데이터 세트와 예측에 사용된 합성 데이터 세트를 선택합니다.
-
Delete(삭제)를 선택합니다.
추가 요금이 발생하지 않도록 SageMaker Canvas에서 로그아웃해야 합니다. 자세한 내용은 Amazon SageMaker Canvas에서 로그아웃 단원을 참조하십시오.