기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
샘플 데이터세트 사용
SageMaker Canvas는 고유한 사용 사례를 다루는 샘플 데이터세트를 제공하므로 코드를 작성하지 않고도 빠르게 모델을 구축, 교육 및 검증할 수 있습니다. 이러한 데이터세트와 관련된 사용 사례는 SageMaker Canvas의 기능을 강조하며, 이러한 데이터세트를 활용하여 모델 구축을 시작할 수 있습니다. Canvas 애플리케이션의 데이터세트 페이지에서 샘플 데이터세트를 찾을 수 있습니다. SageMaker
샘플 데이터 세트
다음 데이터세트는 SageMaker Canvas에서 기본적으로 제공하는 샘플입니다. 이 데이터 세트는 주택 가격, 대출 채무 불이행 및 당뇨병 환자의 재입원 예측, 판매 예측, 제조 단위의 예측 유지보수를 간소화하기 위한 기계 고장 예측, 운송 및 물류를 위한 공급망 예측 생성 등의 사용 사례를 다룹니다. 데이터세트는 지역의 계정용으로 SageMaker 생성하는 기본 Amazon S3 버킷의 sample_dataset
폴더에 저장됩니다.
-
canvas-sample-diabetic-readmission.csv: 이 데이터세트에는 15개 이상의 특징과 환자 및 병원 결과를 포함한 과거 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 고위험 당뇨병 환자가 퇴원 후 30일 이내에 병원에 재입원할 가능성이 있는지, 30일 후 또는 전혀 재입원할 가능성이 있는지 예측할 수 있습니다. 재입원 열을 대상 열로 사용하고, 이 데이터 세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터세트로 모델을 구축하는 방법에 대해 자세히 알아보려면 Canvas 워크숍 페이지를 참조하십시오. SageMaker
이 데이터 세트는 UCI 기계 학습 리포지토리 에서 가져온 것입니다. -
canvas-sample-housing.csv: 이 데이터세트에는 특정 주택 가격과 관련된 특성에 대한 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 주택 가격을 예측할 수 있습니다. median_house_value 열을 대상 열로 사용하고, 이 데이터셋에는 수치형 예측 모델 유형을 사용하십시오. 이 데이터셋으로 모델을 구축하는 방법에 대해 자세히 알아보려면 Canvas 워크숍 페이지를 참조하십시오. SageMaker
리포지토리에서 가져온 캘리포니아 주택 데이터세트입니다. StatLib -
canvas-sample-loans.csv: 이 데이터세트에는 현재 대출 상태 및 최신 결제 정보를 포함하여 2007년부터 2011년까지 발행된 모든 대출에 대한 전체 대출 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 고객의 대출금 상환 여부를 예측할 수 있습니다. loan_status 열을 대상 열로 사용하고, 이 데이터 세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터세트를 사용하여 모델을 구축하는 방법에 대해 자세히 알아보려면 Canvas 워크숍 페이지를 참조하십시오. SageMaker
이 데이터는 Kaggle에서 얻은 LendingClub 데이터를 사용합니다. -
canvas-sample-maintenance.csv: 이 데이터세트에는 특정 유지보수 실패 유형과 관련된 특성에 대한 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 미래에 어떤 장애가 발생할지 예측할 수 있습니다. 실패 유형 열을 대상 열로 사용하고 이 데이터 세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터세트로 모델을 구축하는 방법에 대해 자세히 알아보려면 Canvas 워크숍 페이지를 참조하십시오. SageMaker
이 데이터 세트는 UCI 기계 학습 리포지토리 에서 가져온 것입니다. -
canvas-sample-shipping-logs.csv: 이 데이터세트에는 예상 시간, 배송 우선순위, 배송사, 원산지를 포함하여 배송된 모든 제품에 대한 전체 배송 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 배송 예상 도착 시간(일수)을 예측할 수 있습니다. ActualShippingDays열을 대상 열로 사용하고 이 데이터셋에는 수치 예측 모델 유형을 사용하십시오. 이 데이터로 모델을 구축하는 방법에 대해 자세히 알아보려면 SageMaker Canvas 워크숍
페이지를 참조하십시오. 이것은 Amazon에서 만든 합성 데이터 세트입니다. -
canvas-sample-sales-forecasting.csv: 이 데이터셋에는 소매점의 과거 시계열 판매 데이터가 포함되어 있습니다. 이 데이터 세트를 사용하여 특정 소매점의 매출을 예측할 수 있습니다. 판매 열을 대상 열로 사용하고 이 데이터셋에서는 시계열 예측 모델 유형을 사용하십시오. 이 데이터셋으로 모델을 구축하는 방법에 대해 자세히 알아보려면 SageMaker Canvas
워크숍 페이지를 참조하십시오. 이것은 Amazon에서 만든 합성 데이터 세트입니다.
삭제된 샘플 데이터 세트를 다시 가져옵니다.
샘플 데이터세트를 더 이상 사용하지 않으려면 Canvas 애플리케이션의 데이터세트 페이지에서 삭제할 수 있습니다 SageMaker . 하지만 이러한 데이터 세트는 사용자가 Canvas 스토리지 위치로 지정한 Amazon S3 버킷에 계속 저장되므로 나중에 언제든지 액세스할 수 있습니다.
기본 Amazon S3 버킷을 사용한 경우 버킷 이름은 패턴 sagemaker-
을 따릅니다. {region}
-{account
ID}
Canvas/sample_dataset
디렉터리 경로에서 샘플 데이터 세트를 찾을 수 있습니다.
SageMaker Canvas 애플리케이션에서 샘플 데이터세트를 삭제한 후 샘플 데이터세트에 다시 액세스하려면 다음 절차를 사용하세요.
-
Canvas 애플리케이션의 데이터세트 페이지로 이동합니다. SageMaker
-
데이터 가져오기를 선택합니다.
-
Amazon S3 버킷 목록에서 Canvas 스토리지 위치인 버킷을 선택합니다. 기본 SageMaker 생성 Amazon S3 버킷을 사용하는 경우 이름 지정 패턴을 따릅니다.
sagemaker-
{region}
-{account ID}
-
Canvas 폴더를 선택합니다.
-
캔버스의 모든 샘플 데이터세트를 포함하는 sample_dataset 폴더를 선택합니다. SageMaker
-
가져오려는 데이터 세트를 선택한 다음 데이터 가져오기를 선택합니다.