훈련 모드 및 알고리즘 지원

PDF

RSS

포커스 모드

훈련 모드 및 알고리즘 지원 - Amazon SageMaker AI

훈련 모드 알고리즘 지원

Autopilot은 머신 러닝 문제를 해결하고, 품질 및 객관적 지표에 대해 보고하고, 필요할 때 교차 검증을 자동으로 사용할 수 있도록 다양한 훈련 모드와 알고리즘을 지원합니다.

훈련 모드

SageMaker Autopilot은 데이터세트 크기를 기반으로 훈련 방법을 자동으로 선택하거나 수동으로 선택할 수 있습니다. 다음과 같은 옵션이 있습니다.

앙상블 - Autopilot은 AutoGluon 라이브러리를 사용하여 여러 기본 모델을 훈련합니다. 데이터세트에 가장 적합한 조합을 찾기 위해 앙상블 모드에서는 다양한 모델 및 메타 파라미터 설정을 사용하여 10회의 시험을 실행합니다. 그런 다음 Autopilot은 적층 앙상블 방법을 사용하여 이러한 모델을 결합하여 최적의 예측 모델을 생성합니다. 테이블 형식 데이터에 대한 앙상블 모드에서 Autopilot이 지원하는 알고리즘 목록은 다음 알고리즘 지원 섹션을 참조하세요.
하이퍼파라미터 최적화 (HPO) - Autopilot은 데이터세트에서 훈련 작업을 실행하는 동안 베이지안 최적화 또는 다중 충실도 최적화를 사용하여 하이퍼파라미터를 조정하여 모델의 최적 버전을 찾습니다. HPO 모드는 데이터세트와 가장 관련이 있는 알고리즘을 선택하고 모델을 조정하는 데 가장 적합한 하이퍼파라미터 범위를 선택합니다. 모델을 조정하기 위해 HPO 모드에서는 최대 100회의 시도(기본값)를 실행하여 선택한 범위 내에서 최적의 하이퍼파라미터 설정을 찾습니다. 데이터세트 크기가 100MB 미만인 경우 Autopilot은 베이지안 최적화를 사용합니다. Autopilot은 데이터세트가 100MB를 초과하는 경우 다중 충실도 최적화를 선택합니다.

다중 충실도 최적화에서는 훈련 컨테이너에서 지표를 지속적으로 내보냅니다. 선택한 목표 지표에 대해 성능이 좋지 않은 시험은 조기에 중단됩니다. 성과가 좋은 시험에는 더 많은 리소스가 할당됩니다.

HPO 모드에서 Autopilot이 지원하는 알고리즘 목록은 다음 알고리즘 지원 섹션을 참조하세요.
자동 - Autopilot은 데이터세트 크기에 따라 앙상블링 모드 또는 HPO 모드를 자동으로 선택합니다. 데이터세트가 100MB를 초과하는 경우 Autopilot은 HPO를 선택합니다. 그렇지 않으면 앙상블 모드를 선택합니다. 다음과 같은 경우 Autopilot이 데이터세트 크기를 읽지 못할 수 있습니다.
- AutoML 작업에 대해 VPC(Virtual Private Cloud) 모드를 활성화한 경우 데이터세트를 포함하는 S3 버킷은 VPC에서의 액세스만 허용합니다.
- 데이터세트의 입력 S3DataType은 ManifestFile입니다.
- 입력 S3Uri에는 1000개 이상의 항목이 포함되어 있습니다.
Autopilot이 데이터세트 크기를 읽을 수 없는 경우 기본적으로 HPO 모드를 선택합니다.

참고

최적의 런타임과 성능을 위해 100MB 미만의 데이터세트에는 앙상블 훈련 모드를 사용합니다.

알고리즘 지원

HPO 모드에서 Autopilot은 다음과 같은 유형의 기계 학습 알고리즘을 지원합니다.

선형 학습기 - 분류 또는 회귀 문제를 해결할 수 있는 지도 학습 알고리즘입니다.
XGBoost – 그라디언트 부스팅은 더욱 단순하고 약한 모델 세트의 추정치의 앙상블을 결합하여 대상 변수를 정확하게 예측하려 시도하는 지도 학습 알고리즘입니다.
딥 러닝 알고리즘 - 다중 계층 퍼셉트론(MLP) 및 피드포워드 인공 신경망입니다. 이 알고리즘은 선형적으로 분리할 수 없는 데이터를 처리할 수 있습니다.

참고

기계 학습 문제에 사용할 알고리즘을 지정할 필요가 없습니다. Autopilot은 학습에 적합한 알고리즘을 자동으로 선택합니다.

앙상블링 모드에서 Autopilot은 다음과 같은 유형의 기계 학습 알고리즘을 지원합니다.

LightGBM - 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 최적의 프레임워크입니다. 이 알고리즘은 깊이가 아닌 폭이 커지고 속도에 고도로 최적화된 트리를 사용합니다.
CatBoost - 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다. 범주형 변수를 처리하도록 최적화되었습니다.
XGBoost - 폭이 아닌 깊이가 증가하는 그라디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다.
랜덤 포레스트 - 대체물이 있는 데이터의 무작위 하위 샘플에 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 최적의 노드로 분할됩니다. 각 트리의 결정을 함께 평균화하여 과적합을 방지하고 예측을 개선합니다.
추가 트리 - 전체 데이터세트에서 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 무작위로 분할됩니다. 각 트리의 결정을 평균화하여 과적합을 방지하고 예측을 개선합니다. 랜덤 포레스트 알고리즘에 비해 추가 트리는 어느 정도의 무작위성을 높입니다.
선형 모델 - 선형 방정식을 사용하여 관측 데이터의 두 변수 간 관계를 모델링하는 프레임워크입니다.
신경망 torch - Pytorch를 사용하여 구현된 신경망 모델입니다.
신경망 fast.ai - fast.ai를 사용하여 구현된 신경망 모델입니다.