API를 사용하여 텍스트 분류를 위한 AutoML 작업 생성 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

API를 사용하여 텍스트 분류를 위한 AutoML 작업 생성

다음 지침은 SageMaker API Reference를 사용하여 텍스트 분류 문제 유형에 대한 SageMaker 파일럿 실험으로 Amazon Autopilot 작업을 생성하는 방법을 보여줍니다.

참고

텍스트 및 이미지 분류, 시계열 예측, 대형 언어 모델 미세 조정 등의 작업은 AutoML REST API 버전 2를 통해서만 사용할 수 있습니다. 선택한 언어가 Python인 경우 Amazon SageMaker Python SDK의 AutoMLv2 객체를 직접 AWS SDK for Python (Boto3)참조하거나 참조할 수 있습니다.

편리한 사용자 인터페이스를 선호하는 사용자는 Amazon SageMaker Canvas를 사용하여 사전 학습된 모델 및 제너레이티브 AI 기반 모델에 액세스하거나 특정 텍스트, 이미지 분류, 예측 요구 또는 제너레이티브 AI에 맞게 조정된 사용자 지정 모델을 생성할 수 있습니다.

Amazon Autopilot에서 지원하는 모든 언어로 CreateAutoMLJobV2API 작업을 호출하여 프로그래밍 방식으로 SageMaker 오토파일럿 텍스트 분류 실험을 생성할 수 있습니다. AWS CLI

이 API 작업이 선택한 언어의 함수로 변환되는 방식에 대한 자세한 내용은 CreateAutoMLJobV2추가 참고 사항 섹션 및 SDK 선택을 참조하세요. 예를 들어, Python 사용자의 경우 AWS SDK for Python (Boto3)에서 create_auto_ml_job_v2의 전체 요청 구문을 참조하세요.

다음은 텍스트 분류에 사용되는 CreateAutoMLJobV2 API 작업에 대한 필수 및 선택적 입력 요청 파라미터 모음입니다.

필수 파라미터

텍스트 분류를 위한 Autopilot 실험을 만들기 위해 CreateAutoMLJobV2를 호출할 때는 다음 값을 제공해야 합니다.

다른 모든 파라미터는 선택 사항입니다.

선택적 파라미터

다음 섹션에서는 텍스트 분류 AutoML 작업에 전달할 수 있는 몇 가지 선택적 파라미터에 대해 자세히 설명합니다.

자체 검증 데이터 세트와 사용자 지정 데이터 분할 비율을 제공하거나 Autopilot이 데이터 세트를 자동으로 분할하도록 할 수 있습니다.

AutoMLJobChannel개체 (필수 매개변수 AutoML 참조JobInputDataConfig) 에는 기계 학습 모델을 구축할 때 데이터를 사용하는 방법을 지정하는 validation 값 중 하나로 training 설정할 수 있는 a가 있습니다. ChannelType

데이터 소스를 하나 이상 제공해야 하며 훈련 데이터용 및 검증 데이터용으로 최대 두 개의 데이터 소스가 허용됩니다. 데이터를 훈련 및 검증 데이터 세트로 분할하는 방법은 데이터 원본이 하나 또는 두 개인지 여부에 따라 달라집니다.

데이터를 훈련 및 검증 데이터 세트로 분할하는 방법은 데이터 원본이 한 개 또는 두 개인지에 따라 달라집니다.

  • 데이터 소스가 하나뿐인 경우 ChannelType은 기본적으로 training으로 설정되며 이 값을 가져야 합니다.

    • AutoMLDataSplitConfigValidationFraction 값이 설정되지 않은 경우, 기본적으로 이 소스의 데이터 중 0.2(20%)가 검증에 사용됩니다.

    • ValidationFraction을 0과 1 사이의 값으로 설정하면 데이터 세트가 지정된 값을 기준으로 분할됩니다. 여기서 값은 검증에 사용되는 데이터 세트의 비율을 지정합니다.

  • 데이터 소스가 두 개 있는 경우, AutoMLJobChannel 개체 중 하나의 ChannelType을 기본값인 training으로 설정해야 합니다. 다른 데이터 소스의 ChannelTypevalidation으로 설정해야 합니다. 두 데이터 소스는 CSV 또는 Parquet으로 형식이 같고 스키마가 같아야 합니다. 각 소스의 모든 데이터가 훈련 또는 검증에 사용되므로 이 경우에 ValidationFraction에 대한 값을 설정하지 않아야 합니다. 이 값을 설정하면 오류가 발생합니다.

AutoML 작업에 최적의 모델 후보에 대한 자동 배포를 활성화하려면, AutoML 작업 요청에 ModelDeployConfig을 포함하세요. 이렇게 하면 SageMaker 엔드포인트에 최상의 모델을 배포할 수 있습니다. 다음은 사용자 지정에 사용할 수 있는 구성입니다.