API를 사용하여 텍스트 분류를 위한 AutoML 작업 생성

다음 지침은 SageMaker API 참조를 사용하여 텍스트 분류 문제 유형에 대한 파일럿 실험으로 Amazon SageMaker Autopilot 작업을 생성하는 방법을 보여줍니다.

참고

텍스트 및 이미지 분류, 시계열 예측, 대형 언어 모델 미세 조정과 같은 작업은 버전 2의 AutoML REST API를 통해서만 사용할 수 있습니다. 선택한 언어가 Python인 경우 Amazon SageMaker Python SDK의 AWS SDK for Python (Boto3) 또는 AutoMLV2 객체를 직접 참조할 수 있습니다.

편리한 사용자 인터페이스를 선호하는 사용자는 Amazon SageMaker Canvas를 사용하여 사전 훈련된 모델, 생성형 AI 기반 모델에 액세스하거나 특정 텍스트, 이미지 분류 또는 예측 요구 또는 생성형 AI에 맞춘 사용자 지정 모델을 생성할 수 있습니다.

Amazon SageMaker Autopilot 또는 AWS CLI에서 지원하는 모든 언어로 CreateAutoMLJobV2 API 작업을 호출하여 프로그래밍 방식으로 Autopilot 텍스트 분류 실험을 생성할 수 있습니다.

이 API 작업이 선택한 언어의 함수로 변환되는 방식에 대한 자세한 내용은 CreateAutoMLJobV2의 추가 참고 사항 섹션 및 SDK 선택을 참조하세요. 예를 들어, Python 사용자의 경우 AWS SDK for Python (Boto3)에서 create_auto_ml_job_v2의 전체 요청 구문을 참조하세요.

다음은 텍스트 분류에 사용되는 CreateAutoMLJobV2 API 작업에 대한 필수 및 선택적 입력 요청 파라미터 모음입니다.

필수 파라미터

텍스트 분류를 위한 Autopilot 실험을 만들기 위해 CreateAutoMLJobV2를 호출할 때는 다음 값을 제공해야 합니다.

작업 이름을 지정하기 위한 AutoMLJobName.
데이터 소스를 지정하려면 AutoMLJobInputDataConfig에서 하나 이상의 AutoMLJobChannel.
유형 TextClassificationJobConfig의 AutoMLProblemTypeConfig.
AutoML 작업의 아티팩트를 저장할 Amazon S3 출력 경로를 지정하기 위한 OutputDataConfig.
데이터 액세스에 사용되는 역할의 ARN을 지정하기 위한 RoleArn.

다른 모든 파라미터는 선택 사항입니다.

선택적 파라미터

다음 섹션에서는 텍스트 분류 AutoML 작업에 전달할 수 있는 몇 가지 선택적 파라미터에 대해 자세히 설명합니다.

자체 검증 데이터세트와 사용자 지정 데이터 분할 비율을 제공하거나 Autopilot이 데이터세트를 자동으로 분할하도록 할 수 있습니다.

각 AutoMLJobChannel 개체(필수 파라미터 AutoMLJobinputDataConfig 참조)에는 기계 학습 모델을 구축할 때 데이터를 사용하는 방법을 지정하는 값 중 training 또는 validation으로 설정할 수 있는 ChannelType이 있습니다.

데이터 소스를 하나 이상 제공해야 하며 훈련 데이터용 및 검증 데이터용으로 최대 두 개의 데이터 소스가 허용됩니다. 데이터를 훈련 및 검증 데이터세트로 분할하는 방법은 데이터 원본이 하나 또는 두 개인지 여부에 따라 달라집니다.

데이터를 훈련 및 검증 데이터세트로 분할하는 방법은 데이터 원본이 한 개 또는 두 개인지에 따라 달라집니다.

데이터 소스가 하나뿐인 경우 ChannelType은 기본적으로 training으로 설정되며 이 값을 가져야 합니다.
- AutoMLDataSplitConfig의 ValidationFraction 값이 설정되지 않은 경우, 기본적으로 이 소스의 데이터 중 0.2(20%)가 검증에 사용됩니다.
- ValidationFraction을 0과 1 사이의 값으로 설정하면 데이터세트가 지정된 값을 기준으로 분할됩니다. 여기서 값은 검증에 사용되는 데이터세트의 비율을 지정합니다.
데이터 소스가 두 개 있는 경우, AutoMLJobChannel 개체 중 하나의 ChannelType을 기본값인 training으로 설정해야 합니다. 다른 데이터 소스의 ChannelType은 validation으로 설정해야 합니다. 두 데이터 소스는 CSV 또는 Parquet으로 형식이 같고 스키마가 같아야 합니다. 각 소스의 모든 데이터가 훈련 또는 검증에 사용되므로 이 경우에 ValidationFraction에 대한 값을 설정하지 않아야 합니다. 이 값을 설정하면 오류가 발생합니다.

AutoML 작업에 최적의 모델 후보에 대한 자동 배포를 활성화하려면, AutoML 작업 요청에 ModelDeployConfig을 포함하세요. 이렇게 하면 SageMaker AI 엔드포인트에 최상의 모델을 배포할 수 있습니다. 다음은 사용자 지정에 사용할 수 있는 구성입니다.

Autopilot이 엔드포인트 이름을 생성하도록 하려면 AutoGenerateEndpointName을 True로 설정합니다.
엔드포인트에 고유한 이름을 제공하려면 AutoGenerateEndpointName to False and provide a name of your choice in EndpointName을 설정하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 성능 보고서

데이터세트 형식 및 목표 지표