사용자 지정 모델 구축 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사용자 지정 모델 구축

Amazon SageMaker Canvas를 사용하여 가져온 데이터세트에 사용자 지정 모델을 구축하십시오. 구축한 모델을 사용하여 새 데이터를 예측하십시오. SageMaker Canvas는 데이터세트의 정보를 사용하여 최대 250개의 모델을 구축하고 가장 성능이 좋은 모델을 선택합니다.

모델 구축을 시작하면 Canvas는 하나 이상의 모델 유형을 자동으로 추천합니다. 모델 유형은 다음 범주 중 하나에 속합니다.

  • 수치 예측 - 머신 러닝에서는 이를 회귀라고 합니다. 수치 데이터에 대한 예측을 수행하려는 경우 수치 예측 모델 유형을 사용하세요. 예를 들어, 주택의 면적과 같은 특징을 기반으로 주택 가격을 예측하고자 할 수 있습니다.

  • 범주형 예측 - 기계 학습에서는 이를 분류라고 합니다. 데이터를 그룹으로 분류하려면 범주형 예측 모델 유형을 사용하세요.

    • 2개 범주 예측 - 데이터에 대해 두 개의 범주를 예측하려는 경우 2개 범주 예측 모델 유형(기계 학습에서는 바이너리 분류라고도 함)을 사용합니다. 예를 들어, 고객의 이탈 가능성이 있는지 여부를 판단하고자 할 수 있습니다.

    • 3개 이상의 범주 예측 - 데이터에 대해 세 개 이상의 범주를 예측하려는 경우 3개 이상의 범주 예측 모델 유형(기계 학습에서는 다중 클래스 분류라고도 함)을 사용합니다. 예를 들어 이전 결제 등의 기능을 기반으로 고객의 대출 상태를 예측할 수 있습니다.

  • 시계열 예측 - 일정 기간 동안 예측하려는 경우 시계열 예측을 사용합니다. 예를 들어 다음 분기에 판매할 품목 수를 예측할 수 있습니다. 시계열 예측에 대한 자세한 내용은 Amazon SageMaker Canvas의 시계열 예측을 참조하십시오.

  • 이미지 예측 - 이미지에 레이블을 할당하려는 경우 단일 레이블 이미지 예측 모델 유형(기계 학습에서는 단일 레이블 이미지 분류라고도 함)을 사용합니다. 예를 들어 제품 이미지의 여러 제조 결함 유형을 분류할 수 있습니다.

  • 텍스트 예측 - 텍스트 구절에 레이블을 지정하려면 다중 범주 텍스트 예측 모델 유형(기계 학습에서는 다중 클래스 텍스트 분류라고도 함)을 사용합니다. 예를 들어, 제품에 대한 고객 리뷰 데이터 세트가 있고 고객이 해당 제품을 좋아했는지 싫어했는지 확인하려는 경우가 있습니다. 주어진 텍스트 구절이 Positive, Negative, 또는 Neutral인지 모델이 예측하도록 할 수 있습니다.

각 모델 유형에 지원되는 입력 데이터 유형의 테이블은 사용자 지정 모델 사용을 참조하세요.

빌드하는 각 테이블 형식 데이터 모델(수치, 범주형, 시계열 예측 및 텍스트 예측 모델 포함)에 대해 대상 열을 선택합니다. 대상 열은 예측하려는 정보가 들어 있는 열입니다. 예를 들어 사용자의 구독 취소 여부를 예측하는 모델을 구축하는 경우 대상 열에는 사용자의 취소 상태에 대해 yes또는 no인 데이터 요소가 포함됩니다.

이미지 예측 모델의 경우 레이블이 지정된 이미지의 데이터 세트를 사용하여 모델을 구축합니다. 레이블이 지정되지 않은 이미지를 제공하는 경우 모델이 레이블을 예측합니다. 예를 들어 이미지가 고양이인지 개인지 예측하는 모델을 구축하는 경우 모델을 구축할 때 고양이 또는 개 라벨이 붙은 이미지를 제공해야 합니다. 그러면 모델은 레이블이 지정되지 않은 이미지를 받아들이고 이를 고양이 또는 개로 예측할 수 있습니다.

모델을 생성하면 발생하는 상황

모델을 빌드하려면 빠른 빌드 또는 표준 빌드를 선택할 수 있습니다. 빠른 빌드는 빌드 시간이 더 짧지만 표준 빌드는 일반적으로 정확도가 더 높습니다. 다음 테이블에는 각 모델 및 빌드 유형의 평균 빌드 시간과 각 빌드 유형에 필요한 최소 및 최대 데이터 포인트 수가 요약되어 있습니다.

Limit 수치형 및 범주형 예측 시계열 예측 이미지 예측 텍스트 예측

빠른 빌드 시간

2~20분

2~20분

15~30분

15~30분

표준 빌드 시간

2~4시간

2~4시간

2~5시간

2~5시간

빠른 빌드의 최대 항목 수(행 또는 이미지)

50,000

50,000

5000

7500

빠른 빌드를 실행하는 동안 로그아웃하면 다시 로그인할 때까지 빌드가 중단될 수 있습니다. 다시 로그인하면 Canvas가 빠른 빌드를 다시 시작합니다.

Canvas는 모델 유형에 따라 나머지 데이터 세트의 정보를 사용하여 값을 예측합니다.

  • 범주형 예측의 경우 Canvas는 각 행을 대상 열에 나열된 범주 중 하나에 배치합니다.

  • 수치 예측의 경우 Canvas는 데이터 세트의 정보를 사용하여 대상 열의 숫자 값을 예측합니다.

  • 시계열 예측의 경우 Canvas는 과거 데이터를 사용하여 미래의 대상 열 값을 예측합니다.

  • 이미지 예측의 경우 Canvas는 레이블이 지정된 이미지를 사용하여 레이블이 지정되지 않은 이미지의 레이블을 예측합니다.

  • 텍스트 예측의 경우 Canvas는 레이블이 지정된 텍스트 데이터를 분석하여 레이블이 지정되지 않은 텍스트 구절의 레이블을 예측합니다.

모델을 구축하는 데 도움이 되는 추가 기능

참고

수치형 및 범주형 예측 모델과 시계열 예측 모델에 사용할 수 있는 기능은 다음과 같습니다.

모델을 구축하기 전에 데이터를 필터링하거나 고급 변환을 사용하여 준비할 수 있습니다. 모델 구축을 위한 데이터 준비에 대한 자세한 내용은 고급 변환으로 데이터 준비을 참조하세요.

또한 시각화 및 분석을 사용하여 데이터를 탐색하고 모델에 포함하기에 가장 적합한 기능을 결정할 수 있습니다. 자세한 내용은 데이터 탐색 및 분석을 참조하세요.

모델 미리 보기, 데이터 세트 검증, 모델 구축에 사용되는 무작위 샘플 크기 변경과 같은 추가 기능에 대한 자세한 내용은 모델 미리 보기을 참조하세요.

여러 열이 있는 테이블 형식 데이터 세트(예: 범주형, 수치형 또는 시계열 예측 모델 유형을 구축하기 위한 데이터 세트)의 경우 데이터 포인트가 누락된 행이 있을 수 있습니다. Canvas는 모델을 빌드하는 동안 누락된 값을 자동으로 추가합니다. Canvas는 데이터 세트의 값을 사용하여 누락된 값에 대한 수학적 근사치를 계산합니다. 모델 정확도를 극대화하려면 누락된 데이터를 찾을 수 있는 경우 추가하는 것이 좋습니다. 텍스트 예측 또는 이미지 예측 모델에는 누락된 데이터 기능이 지원되지 않는다는 점에 유의하세요.

시작하기

사용자 지정 모델 구축을 시작하려면 구축하려는 모델 유형의 절차를 확인하고 모델 빌드을 따르세요.