훈련 모드 및 알고리즘 지원 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

훈련 모드 및 알고리즘 지원

Autopilot은 머신 러닝 문제를 해결하고, 품질 및 객관적 지표에 대해 보고하고, 필요할 때 교차 검증을 자동으로 사용할 수 있도록 다양한 훈련 모드와 알고리즘을 지원합니다.

훈련 모드

SageMaker 오토파일럿은 데이터세트 크기를 기반으로 훈련 방법을 자동으로 선택하거나 사용자가 수동으로 선택할 수 있습니다. 다음과 같은 옵션이 있습니다.

  • 앙상블링 — 오토파일럿은 AutoGluon라이브러리를 사용하여 여러 기본 모델을 학습시킵니다. 데이터 세트에 가장 적합한 조합을 찾기 위해 앙상블 모드에서는 다양한 모델 및 메타 파라미터 설정을 사용하여 10회의 시험을 실행합니다. 그런 다음 Autopilot은 적층 앙상블 방법을 사용하여 이러한 모델을 결합하여 최적의 예측 모델을 생성합니다. 테이블 형식 데이터에 대한 앙상블 모드에서 Autopilot이 지원하는 알고리즘 목록은 다음 알고리즘 지원 섹션을 참조하세요.

  • 하이퍼파라미터 최적화 (HPO) — 오토파일럿은 데이터셋에서 훈련 작업을 실행하는 동안 베이지안 최적화 또는 멀티피델리티 최적화를 사용하여 하이퍼파라미터를 조정하여 모델의 최적 버전을 찾습니다. HPO모드는 데이터셋과 가장 관련이 있는 알고리즘을 선택하고 모델을 튜닝하는 데 가장 적합한 하이퍼파라미터 범위를 선택합니다. 모델을 조정하기 위해 HPO mode는 최대 100회의 시도 (기본값) 를 실행하여 선택한 범위 내에서 최적의 하이퍼파라미터 설정을 찾습니다. 데이터 세트 크기가 100MB 미만인 경우 Autopilot은 베이지안 최적화를 사용합니다. Autopilot은 데이터 세트가 100MB를 초과하는 경우 다중 충실도 최적화를 선택합니다.

    다중 충실도 최적화에서는 훈련 컨테이너에서 지표를 지속적으로 내보냅니다. 선택한 목표 지표에 대해 성능이 좋지 않은 시험은 조기에 중단됩니다. 성과가 좋은 시험에는 더 많은 리소스가 할당됩니다.

    오토파일럿이 HPO 모드에서 지원하는 알고리즘 목록은 다음 알고리즘 지원 섹션을 참조하십시오.

  • 자동 — 오토파일럿은 데이터셋 크기에 따라 앙상블링 모드 또는 HPO 모드를 자동으로 선택합니다. 데이터세트가 100MB를 초과하는 경우 오토파일럿이 선택합니다. HPO 그렇지 않으면 앙상블 모드를 선택합니다. 다음과 같은 경우 Autopilot이 데이터 세트 크기를 읽지 못할 수 있습니다.

    • AutoML 작업에 대해 가상 사설 클라우드 (VPC) 모드를 활성화한 경우 데이터세트를 포함하는 S3 버킷은 에서만 액세스를 허용합니다. VPC

    • 데이터세트의 입력 DataTypeS3는 a입니다. ManifestFile

    • 입력 S3Uri에는 1000개 이상의 항목이 포함되어 있습니다.

    오토파일럿이 데이터세트 크기를 읽을 수 없는 경우 기본적으로 모드를 선택합니다. HPO

참고

최적의 런타임과 성능을 위해 100MB 미만의 데이터 세트에는 앙상블 훈련 모드를 사용합니다.

알고리즘 지원

HPO모드에서 오토파일럿은 다음과 같은 유형의 기계 학습 알고리즘을 지원합니다.

  • 선형 학습기 - 분류 또는 회귀 문제를 해결할 수 있는 지도 학습 알고리즘입니다.

  • XGBoost— 단순하고 약한 모델 집합의 추정치를 조합하여 대상 변수를 정확하게 예측하려고 시도하는 지도 학습 알고리즘입니다.

  • 딥러닝 알고리즘 — 다층 퍼셉트론 () 및 피드포워드 인공 신경망. MLP 이 알고리즘은 선형적으로 분리할 수 없는 데이터를 처리할 수 있습니다.

참고

기계 학습 문제에 사용할 알고리즘을 지정할 필요가 없습니다. Autopilot은 학습에 적합한 알고리즘을 자동으로 선택합니다.

앙상블링 모드에서 Autopilot은 다음과 같은 유형의 기계 학습 알고리즘을 지원합니다.

  • Light GBM — 그래디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 최적화된 프레임워크입니다. 이 알고리즘은 깊이가 아닌 폭이 커지고 속도에 고도로 최적화된 트리를 사용합니다.

  • CatBoost— 그래디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다. 범주형 변수를 처리하도록 최적화되었습니다.

  • XGBoost— 폭이 아닌 깊이가 커지는 그래디언트 부스팅과 함께 트리 기반 알고리즘을 사용하는 프레임워크입니다.

  • 랜덤 포레스트 - 대체물이 있는 데이터의 무작위 하위 샘플에 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 최적의 노드로 분할됩니다. 각 트리의 결정을 함께 평균화하여 과적합을 방지하고 예측을 개선합니다.

  • 추가 트리 - 전체 데이터 세트에서 여러 가지 결정 트리를 사용하는 트리 기반 알고리즘입니다. 트리는 각 수준에서 무작위로 분할됩니다. 각 트리의 결정을 평균화하여 과적합을 방지하고 예측을 개선합니다. 랜덤 포레스트 알고리즘에 비해 추가 트리는 어느 정도의 무작위성을 높입니다.

  • 선형 모델 - 선형 방정식을 사용하여 관측 데이터의 두 변수 간 관계를 모델링하는 프레임워크입니다.

  • 신경망 torch - Pytorch를 사용하여 구현된 신경망 모델입니다.

  • 신경망 fast.ai - fast.ai를 사용하여 구현된 신경망 모델입니다.