AutoGluon-테이블 형식 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AutoGluon-테이블 형식

AutoGluon-테이블 형식는 널리 사용되는 오픈 소스 AutoML 프레임워크로, 처리되지 않은 테이블 형식 데이터셋에서 매우 정확한 머신 러닝 모델을 학습시킵니다. 모델 및 하이퍼파라미터 선택에 주로 초점을 맞춘 기존 AutoML 프레임워크와 달리 AutoGluon-테이블 형식은 여러 모델을 조합하여 여러 레이어로 쌓아서 성공합니다.

사용 방법 SageMaker AutoGluon-테이블 형식

다음을 사용할 수 있습니다. AutoGluon-아마존 테이블 형식 SageMaker 기본 알고리즘. 다음 섹션에서는 사용 방법을 설명합니다. AutoGluon-가 있는 표 형식 SageMaker SDK SDK. 사용 방법에 대한 자세한 내용은 AutoGluon-아마존 표 SageMaker 스튜디오 UI, 참조SageMaker JumpStart.

  • 사용 AutoGluon-내장 알고리즘으로서의 표 형식

    사용 AutoGluon-빌드를 위한 테이블 형식 내장 알고리즘 AutoGluon-다음 코드 예제와 같은 테이블 형식의 훈련 컨테이너 자동으로 찾을 수 있습니다 AutoGluon-를 사용하는 테이블 형식의 내장 알고리즘 이미지 URI SageMaker image_uris.retrieveAPI (또는get_image_uri를 사용하는 경우아마존 SageMaker SDK SDK SD버전 2).

    지정한 후 AutoGluon-테이블 형식의 이미지 URI, 사용할 수 있습니다 AutoGluon-를 사용하여 추정기를 구성하기 위한 테이블 형식 컨테이너 SageMaker 에스티메이터 API를 사용하여 훈련 작업을 시작합니다. 이 AutoGluon-표 형식의 내장 알고리즘은 스크립트 모드에서 실행되지만 교육 스크립트가 제공되므로 교체할 필요가 없습니다. 스크립트 모드를 사용하여 만든 경험이 많으면 SageMaker 교육 작업을 수행하면 자신의 교육 작업을 통합 할 수 있습니다. AutoGluon-표 형식의 교육 스크립트.

    from sagemaker import image_uris, model_uris, script_uris train_model_id, train_model_version, train_scope = "autogluon-regression-ensemble", "*", "training" training_instance_type = "ml.p3.2xlarge" # Retrieve the docker image train_image_uri = image_uris.retrieve( region=None, framework=None, model_id=train_model_id, model_version=train_model_version, image_scope=train_scope, instance_type=training_instance_type ) # Retrieve the training script train_source_uri = script_uris.retrieve( model_id=train_model_id, model_version=train_model_version, script_scope=train_scope ) train_model_uri = model_uris.retrieve( model_id=train_model_id, model_version=train_model_version, model_scope=train_scope ) # Sample training data is available in this bucket training_data_bucket = f"jumpstart-cache-prod-{aws_region}" training_data_prefix = "training-datasets/tabular_multiclass/" training_dataset_s3_path = f"s3://{training_data_bucket}/{training_data_prefix}" output_bucket = sess.default_bucket() output_prefix = "jumpstart-example-tabular-training" s3_output_location = f"s3://{output_bucket}/{output_prefix}/output" from sagemaker import hyperparameters # Retrieve the default hyper-parameters for training the model hyperparameters = hyperparameters.retrieve_default( model_id=train_model_id, model_version=train_model_version ) # [Optional] Override default hyperparameters with custom values hyperparameters[ "auto_stack" ] = "True" print(hyperparameters) from sagemaker.estimator import Estimator from sagemaker.utils import name_from_base training_job_name = name_from_base(f"built-in-algo-{train_model_id}-training") # Create SageMaker Estimator instance tabular_estimator = Estimator( role=aws_role, image_uri=train_image_uri, source_dir=train_source_uri, model_uri=train_model_uri, entry_point="transfer_learning.py", instance_count=1, instance_type=training_instance_type, max_run=360000, hyperparameters=hyperparameters, output_path=s3_output_location ) # Launch a SageMaker Training job by passing the S3 path of the training data tabular_estimator.fit( {"training": training_dataset_s3_path}, logs=True, job_name=training_job_name )

    설정 방법에 대한 자세한 내용은 AutoGluon-내장 알고리즘으로서의 표 형식은 다음 노트북 예제를 참조하십시오.

의 입력 및 출력 인터페이스 AutoGluon-테이블 형식 알고리즘

그라디언트 부스팅은 테이블형 데이터에서 작동합니다. 행은 관측치를 나타내고 1개 열은 대상 변수 또는 레이블을 나타내며, 나머지 열은 특징을 나타냅니다.

이 SageMaker 의 AutoGluon-표는 학습 및 추론을 위한 CSV를 지원합니다.

  • 에 대한교육 ContentType, 유효한 입력은텍스트/csv.

  • 에 대한추론 ContentType, 유효한 입력은텍스트/csv.

참고

CSV 교육의 경우 알고리즘은 대상 변수가 첫 번째 열에 있고 CSV에는 헤더 레코드가 없다고 추정합니다.

CSV 추론의 경우 알고리즘은 CSV 입력에 레이블 열이 없다고 추정합니다.

입력이 가능하도록 훈련 데이터의 형식을 지정하는 방법을 염두에 두세요. AutoGluon- 테이블 형식 모델. 훈련 및 선택적 검증 데이터를 위한 하위 디렉터리가 포함된 Amazon S3 버킷의 경로를 제공해야 합니다.

  • 교육 데이터 입력 형식: 훈련 데이터는 라는 하위 디렉토리에 있어야 합니다.train/a를 포함하는data.csv파일을 생성합니다. 대상 변수는 의 첫 번째 열에 있어야 합니다.data.csv. 예측 변수 (특징) 는 나머지 열에 있어야 합니다.

  • 검증 데이터 입력 형식: 필요한 경우 라는 다른 디렉터리를 포함할 수 있습니다.validation/그것에는 또한data.csv파일을 생성합니다. 검증 데이터는 각 부스팅 반복이 끝날 때 검증 점수를 계산하는 데 사용됩니다. 조기 중지는 검증 점수 개선이 중지될 때 적용됩니다. 검증 데이터가 제공되지 않는 경우, 훈련 데이터의 일부를 무작위로 샘플링하여 검증 데이터로 사용합니다. 이 비율은 훈련 데이터의 행 수를 기준으로 선택됩니다. 자세한 내용은 를 참조하십시오.테이블 형식 예측에서 AutoGluon .

CSV 트레이닝 입력 모드의 경우 알고리즘에 사용할 수 있는 총 메모리 (인스턴스 수) 에 사용 가능한 메모리를 곱한 값입니다.InstanceType) 교육 데이터 세트를 보관할 수 있어야 합니다.

SageMaker AutoGluon-표 형식은autogluon.tabular.TabularPredictor모델을 직렬화하거나 역직렬화하는 모듈로, 모델을 저장하거나 로드하는 데 사용할 수 있습니다.

로 학습한 모델을 사용하려면 SageMaker AutoGluon-가 있는 표 형식 AutoGluon뼈대
  • 다음 Python 코드를 사용합니다.

    import tarfile from autogluon.tabular import TabularPredictor t = tarfile.open('model.tar.gz', 'r:gz') t.extractall() model = TabularPredictor.load(model_file_path) # prediction with test data # dtest should be a pandas DataFrame with column names feature_0, feature_1, ..., feature_d pred = model.predict(dtest)

에 대한 Amazon EC2 인스턴스 권장 사항 AutoGluon-테이블 형식 알고리즘

SageMaker AutoGluon-Tablear는 단일 인스턴스 CPU 및 단일 인스턴스 GPU 트레이닝을 지원합니다. 높은 인스턴스당 비용에도 불구하고 GPU는 더욱 빠르게 교육하여 더욱 효율적입니다. GPU 트레이닝을 활용하려면 인스턴스 유형을 GPU 인스턴스 중 하나 (예: P3) 로 지정하십시오. SageMaker AutoGluon-Tabular는 현재 다중 GPU 훈련을 지원하지 않습니다.

AutoGluon-테이블 형식의 샘플 노트북

다음 표에는 Amazon의 다양한 사용 사례를 다루는 다양한 샘플 노트북이 요약되어 있습니다. SageMaker AutoGluon-표 형식 알고리즘.

노트북 제목 설명

아마존을 사용한 테이블 형식 분류 SageMaker AutoGluon-테이블 형식 알고리즘

이 노트북은 Amazon의 사용법을 보여줍니다. SageMaker AutoGluon-테이블 형식 분류 모델을 학습하고 호스팅하는 테이블 형식 알고리즘.

아마존을 사용한 테이블 형식 회귀 SageMaker AutoGluon-테이블 형식 알고리즘

이 노트북은 Amazon의 사용법을 보여줍니다. SageMaker AutoGluon-테이블 형식 회귀 모델을 학습하고 호스팅하는 테이블 형식 알고리즘.

예제를 실행하는 데 사용할 수 있는 Jupyter Notebook 인스턴스를 만들고 액세스하는 방법에 대한 지침 SageMaker, 참조할Amazon SageMaker 노트북 인스턴스 사용. 노트북 인스턴스를 생성하여 연 후SageMaker예제:탭을 통해 모든 목록을 볼 수 있습니다. SageMaker 샘플. 노트북을 열려면 사용 탭을 선택한 후 Create copy(사본 생성)를 선택합니다.