필수 파라미터 선택적 파라미터 MLJob을 MLJobv2로 마이그레이션하십시오. CreateAuto CreateAuto

AutoML API를 사용하여 테이블 형식 데이터에 대한 회귀 또는 분류 작업 생성

Autopilot 또는 AWS CLI에서 지원하는 모든 언어로 CreateAutoMLJobV2 API를 호출하여 프로그래밍 방식으로 테이블 형식 데이터용 Autopilot 실험을 생성할 수 있습니다.

이 API 작업이 선택한 언어의 함수로 변환되는 방식에 대한 자세한 내용은 CreateAutoMLJobV2의 참고 항목 섹션을 참조하고 SDK를 선택하세요. 예를 들어, Python 사용자의 경우 AWS SDK for Python (Boto3)에서 create_auto_ml_job_v2의 전체 요청 구문을 참조하세요.

참고

CreateAutoMLJobv2 및 MLJobv2는 이전 버전과의 호환성을 제공하는 DescribeAutoMLJob 및 CreateAutoMLJob의 새 버전입니다. DescribeAuto

CreateAutoMLJobV2를 사용하는 것이 좋습니다. CreateAutoMLJobV2는 이전 버전인 CreateAutoMLJob과 동일한 표 형식 문제 유형은 물론 이미지 또는 텍스트 분류, 시계열 예측과 같은 표 형식이 아닌 문제 유형도 관리할 수 있습니다.

최소한 표 형식 데이터에 대한 모든 실험에는 실험 이름을 지정하고, 입력 및 출력 데이터의 위치를 제공하고, 예측할 대상 데이터를 지정해야 합니다. 선택적으로 해결하려는 문제 유형 (회귀, 분류, 멀티클래스 분류) 을 지정하고, 모델링 전략 (누적 앙상블 또는 하이퍼파라미터 최적화) 을 선택하고, 오토파일럿 작업에서 데이터를 훈련하는 데 사용하는 알고리즘 목록을 선택하는 등의 작업을 수행할 수 있습니다.

실험이 실행된 후 실험을 비교하고 각 모델의 전처리 단계, 알고리즘 및 하이퍼파라미터 범위의 세부 정보를 자세히 살펴볼 수 있습니다. 설명가능성 및 성능 보고서를 다운로드할 수 있는 옵션도 있습니다. 제공된 노트북을 사용하여 자동화된 데이터 탐색 결과 또는 후보 모델 정의를 확인합니다.

다음은 CreateAutoMLJobV2 API 작업에 대한 필수 및 선택적 입력 요청 파라미터 모음입니다. 이 작업 CreateAutoMLJob의 이전 버전에 대한 대체 정보를 확인할 수 있습니다. 그러나 CreateAutoMLJobV2 사용을 권장합니다.

MLJob을 MLJobv2로 마이그레이션하십시오. CreateAuto CreateAuto 에서 CreateAutoMLJob을 CreateAutoMLJobV2로 마이그레이션하는 방법에 대한 지침을 확인하십시오.

필수 파라미터

다른 모든 파라미터는 선택 사항입니다.

선택적 파라미터

다음 섹션에서는 테이블 형식 데이터를 사용할 때 CreateAutoMLJobV2 API 작업에 전달할 수 있는 몇 가지 선택적 파라미터에 대한 세부 정보를 제공합니다. 이 작업 CreateAutoMLJob의 이전 버전에 대한 대체 정보를 확인할 수 있습니다. 그러나 CreateAutoMLJobV2 사용을 권장합니다.

테이블 형식 데이터의 경우 모델 후보를 훈련시키기 위해 데이터에서 실행되는 알고리즘 세트는 모델링 전략(ENSEMBLING 또는 HYPERPARAMETER_TUNING)에 따라 달라집니다. 다음에서는 이 훈련 모드를 설정하는 방법을 자세히 설명합니다.

공백(또는null)으로 유지하면 데이터 세트의 크기를 기반으로 Mode를 추론합니다.

Autopilot 누적 앙상블 및 하이퍼파라미터 최적화 훈련 방법에 대한 자세한 내용은 훈련 모드 및 알고리즘 지원을 참조하십시오.

기능 선택

Autopilot은 기능 선택 및 기능 추출을 포함한 자동 데이터 사전 처리 단계를 제공합니다. 하지만 FeatureSpecificatioS3Uri 속성과 함께 훈련에 사용할 기능을 수동으로 제공할 수도 있습니다.

선택한 기능은 JSON 파일에 다음 형식으로 포함되어야 합니다.


{ "FeatureAttributeNames":["col1", "col2", ...] }

["col1", "col2", ...]에 나열된 값은 대소문자를 구분합니다. 입력 데이터에 있는 열 이름의 서브셋인 고유한 값을 포함하는 문자열 목록이어야 합니다.

참고

기능으로 제공된 열 목록에는 대상 열을 포함할 수 없습니다.

알고리즘 선택

기본적으로 Autopilot 작업은 데이터 세트에서 사전 정의된 알고리즘 목록을 실행하여 모델 후보를 학습시킵니다. 알고리즘 목록은 작업에 사용되는 훈련 모드(ENSEMBLING또는HYPERPARAMETER_TUNING)에 따라 달라집니다.

알고리즘 기본 선택 사항의 서브셋을 제공할 수 있습니다.

훈련 Mode에 따라 사용 가능한 알고리즘 목록은 AutoMLAlgorithms을 참조하십시오. 각 알고리즘에 대한 자세한 내용은 훈련 모드 및 알고리즘 지원을 참조하십시오.

자체 검증 데이터 세트와 사용자 지정 데이터 분할 비율을 제공하거나 Autopilot이 데이터 세트를 자동으로 분할하도록 할 수 있습니다.

CreateAutoMLJobV2

각 AutoMLJobChannel개체 (필수 매개변수 AutoML 참조JobInputDataConfig) 에는 기계 학습 모델을 구축할 때 데이터를 사용하는 방법을 지정하는 validation 값 중 하나로 training 설정할 수 있는 a가 있습니다. ChannelType 데이터 소스를 하나 이상 제공해야 하며 학습 데이터용 및 검증 데이터용으로 최대 두 개의 데이터 소스가 허용됩니다.

데이터를 학습 및 검증 데이터 세트로 분할하는 방법은 데이터 원본이 한 개 또는 두 개인지에 따라 달라집니다.

데이터 소스가 하나뿐인 경우 ChannelType은 기본적으로 training으로 설정되며 이 값을 가져야 합니다.
- AutoMLDataSplitConfig의 ValidationFraction 값이 설정되지 않은 경우, 기본적으로 이 소스의 데이터 중 0.2(20%)가 검증에 사용됩니다.
- ValidationFraction를 0과 1 사이의 값으로 설정하면 데이터 세트가 지정된 값을 기준으로 분할됩니다. 여기서 값은 검증에 사용되는 데이터 세트의 비율을 지정합니다.
데이터 소스가 두 개 있는 경우, AutoMLJobChannel 개체 중 하나의 ChannelType을/를 기본값인 training으로 설정해야 합니다. 다른 데이터 소스의 ChannelType은(는) validation으로 설정해야 합니다. 두 데이터 소스는 CSV 또는 Parquet으로 형식이 같고 스키마가 같아야 합니다. 각 원본의 모든 데이터가 학습 또는 검증에 사용되므로 이 경우에는 ValidationFraction의 값을 설정하지 않아야 합니다. 이 값을 설정하면 오류가 발생합니다.

CreateAutoMLJob

각 AutoMLChannel개체 (필수 매개 변수 참조 InputDataConfig) 에는 기계 학습 모델을 구축할 때 데이터를 사용하는 방법을 지정하는 validation 값 중 하나로 training 설정할 수 있는 값이 있습니다. ChannelType 데이터 소스를 하나 이상 제공해야 하며 학습 데이터용 및 검증 데이터용으로 최대 두 개의 데이터 소스가 허용됩니다.

데이터를 학습 및 검증 데이터 세트로 분할하는 방법은 데이터 원본이 한 개 또는 두 개인지에 따라 달라집니다.

데이터 소스가 하나뿐인 경우 ChannelType은 기본적으로 training으로 설정되며 이 값을 가져야 합니다.
- AutoMLDataSplitConfig의 ValidationFraction 값이 설정되지 않은 경우, 기본적으로 이 소스의 데이터 중 0.2(20%)가 검증에 사용됩니다.
- ValidationFraction를 0과 1 사이의 값으로 설정하면 데이터 세트가 지정된 값을 기준으로 분할됩니다. 여기서 값은 검증에 사용되는 데이터 세트의 비율을 지정합니다.
데이터 소스가 두 개 있는 경우, AutoMLChannel 개체 중 하나의 ChannelType을/를 기본값인 training으로 설정해야 합니다. 다른 데이터 소스의 ChannelType은(는) validation으로 설정해야 합니다. 두 데이터 소스는 CSV 또는 Parquet으로 형식이 같고 스키마가 같아야 합니다. 각 원본의 모든 데이터가 학습 또는 검증에 사용되므로 이 경우에는 ValidationFraction의 값을 설정하지 않아야 합니다. 이 값을 설정하면 오류가 발생합니다.

Autopilot의 분할 및 교차 검증에 대한 자세한 내용은 Autopilot에서의 교차 검증을 참조하십시오.

참고

경우에 따라 Autopilot이 ProblemType을 충분한 신뢰도로 추론할 수 없으며, 이 경우에는 사용자가 값을 제공해야 작업을 성공적으로 수행할 수 있습니다.

테이블 형식 데이터 세트에 샘플 가중치 열을 추가한 다음 이를 AutoML 작업에 전달하여 훈련 및 평가 중에 데이터 세트 행에 가중치를 적용하도록 요청할 수 있습니다.

샘플 가중치에 대한 지원은 앙상블 모드에서만 사용할 수 있습니다. 가중치는 음수가 아닌 숫자여야 합니다. 가중치 값이 유효하지 않거나 없는 데이터 포인트는 제외됩니다. 사용 가능한 객체 지표에 대한 자세한 내용은 Autopilot 가중치 지표을 참조하십시오.

MLJob을 MLJobv2로 마이그레이션하십시오. CreateAuto CreateAuto

CreateAutoMLJob 사용자는 CreateAutoMLJobV2로 마이그레이션하는 것이 좋습니다.

이 섹션에서는 두 버전 간의 입력 요청 개체와 속성의 위치, 이름 또는 구조 변경 사항을 강조하여 CreateAutoCreateAutoMLJob과 MLJobv2 간의 입력 매개 변수 차이점을 설명합니다.

버전 간 변경 사항이 없는 속성을 요청합니다.


{
   "AutoMLJobName": "string",
   "AutoMLJobObjective": { 
      "MetricName": "string"
   },
   "ModelDeployConfig": { 
      "AutoGenerateEndpointName": boolean,
      "EndpointName": "string"
   },
   "OutputDataConfig": { 
      "KmsKeyId": "string",
      "S3OutputPath": "string"
   },
   "RoleArn": "string",
   "Tags": [ 
      { 
         "Key": "string",
         "Value": "string"
      }
   ]
}

버전 간 위치 및 구조를 변경한 속성을 요청합니다.

DataSplitConfig, Security Config, CompletionCriteria, Mode, FeatureSpecificationS3Uri, SampleWeightAttributeName, TargetAttributeName 속성은 위치를 변경했습니다.

다음 속성은 버전 간 위치 및 구조를 변경했습니다.

다음 JSON은 AutoML의 JobConfig 방법을 보여줍니다. CandidateGenerationConfigAutoML 유형의 유형이 CandidateGenerationConfig AutoML로 이동되었습니다. ProblemTypeConfig TabularJobConfig. CandidateGenerationConfigCandidateGenerationConfigV2에서 사용할 수 있습니다.

이름 및 구조를 변경한 속성을 요청합니다.

다음 JSON은 V2에서 InputDataConfig(AutoMLChannel의 배열) 이 어떻게 AutoML (AutoML의 JobInputDataConfig 배열) 로 변경되었는지 보여줍니다. JobChannel 속성 SampleWeightAttributeName 및 TargetAttributeName은 InputDataConfig에서 나와 AutoMLProblemTypeConfig로 이동합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

SageMaker 오토파일럿

데이터 세트 형식 및 문제 유형