훈련 작업용 증강 매니페스트 파일

훈련 작업에 데이터세트와 함께 메타데이터를 포함하려면 증강 매니페스트 파일을 사용합니다. 증강 매니페스트 파일을 사용할 때 데이터세트는 Amazon Simple Storage Service(S3)에 저장해야 하고 여기 저장된 데이터세트를 사용하도록 훈련 작업을 구성해야 합니다. 하나 이상의 Channel에 대해 이 데이터세트의 위치 및 형식을 지정합니다. 증강 매니페스트는 파이프 입력 모드만 지원할 수 있습니다. 파이프 입력 모드에 대한 자세한 내용은 Channel의 InputMode 섹션을 참조하세요.

채널의 파라미터를 지정할 때 S3Uri라고 하는 파일에 대한 경로를 지정합니다. Amazon SageMaker AI는 S3DataType에 지정된를 기반으로이 URI를 해석합니다S3DataSource. AugmentedManifestFile 옵션은 입력 데이터와 함께 메타데이터를 포함하는 매니페스트 형식을 정의합니다. 증강 매니페스트 파일을 사용하면 데이터를 라벨링한 경우 전처리를 수행할 필요가 없습니다. 라벨링된 데이터를 사용하는 훈련 작업의 경우 훈련 전에 입력 데이터를 메타데이터와 결합하기 위해 데이터세트를 전처리해야 합니다. 훈련 데이터세트가 크면 사전 처리에 많은 시간과 비용이 들어갈 수 있습니다.

증강 매니페스트 파일 형식

증강 매니페스트 파일은 JSON Lines 형식이어야 합니다. JSON Lines 형식에서 파일의 각 행은 뒤에 줄 바꿈 구분자가 붙는 완전한 JSON 객체입니다.

훈련 중에 SageMaker AI는 각 JSON 줄을 구문 분석하고 해당 속성의 일부 또는 전부를 훈련 알고리즘에 전송합니다. CreateTrainingJob API의 AttributeNames 파라미터를 사용하여 전달한 속성 콘텐츠와 전달 순서를 지정합니다. AttributeNames 파라미터는 SageMaker AI가 훈련 입력으로 사용할 JSON 객체에서 찾는 속성 이름의 정렬된 목록입니다.

예를 들어 AttributeNames에 대해 ["line", "book"]이 나열된 경우 입력 데이터에는 line 및 book이라는 속성 이름이 지정된 순서대로 포함되어 있어야 합니다. 이 예에서는 다음 증강 매니페스트 파일 내용이 유효합니다.


{"author": "Herman Melville", "line": "Call me Ishmael", "book": "Moby Dick"}
{"line": "It was love at first sight.", "author": "Joseph Heller", "book": "Catch-22"}

SageMaker AI는 나열되지 않은 속성 이름이 나열된 속성보다 앞서거나, 따르거나, 사이에 있더라도 나열되지 않은 속성 이름을 무시합니다.

증강 매니페스트 파일을 사용하는 경우 다음 지침을 준수하세요.

AttributeNames 파라미터에 나열된 속성의 순서대로 훈련 작업에서 알고리즘에 속성이 전달됩니다.
나열된 AttributeNames은 JSON 행 내 모든 속성의 하위 세트일 수 있습니다. SageMaker AI는 파일에 나열되지 않은 속성을 무시합니다.
AttributeNames에서 텍스트, 숫자, 데이터 배열 또는 객체 등을 포함해 JSON 형식에서 허용하는 데이터 유형을 지정할 수 있습니다.
S3 URI를 속성 이름으로 포함하려면 속성 이름에 접미사 -ref를 추가합니다.

속성 이름에 접미사 -ref가 포함되어 있으면 이 속성의 값은 훈련 작업에 액세스할 수 있는 데이터 파일에 대한 S3 URI여야 합니다. 예를 들어, AttributeNames에 ["image-ref", "is-a-cat"]가 포함된 경우 다음 예제는 유효한 증강 매니페스트 파일을 보여줍니다.


{"image-ref": "s3://amzn-s3-demo-bucket/sample01/image1.jpg", "is-a-cat": 1}
{"image-ref": "s3://amzn-s3-demo-bucket/sample02/image2.jpg", "is-a-cat": 0}

이 매니페스트 파일의 첫 번째 JSON 줄의 경우 SageMaker AI는에서 image1.jpg 파일을 검색s3://amzn-s3-demo-bucket/sample01/하고 이미지 분류를 "1" 위한 is-a-cat 속성의 문자열 표현을 검색합니다.

작은 정보

증강 매니페스트 파일을 생성하려면 Amazon SageMaker Ground Truth를 사용하여 레이블 지정 작업을 생성합니다. 레이블 지정 작업의 출력에 대한 자세한 내용은 작업 출력 데이터 레이블 지정을 참조하세요.

증강 매니페스트 파일 사용

다음 섹션에서는 Amazon SageMaker SageMaker 훈련 작업에서 증강 매니페스트 파일을 사용하는 방법을 보여줍니다. SageMaker

증강 매니페스트 파일 사용(콘솔)

이 절차를 완료하려면 다음이 필요합니다.

증강 매니페스트 파일을 저장한 S3 버킷의 URL.
S3 버킷의 증강 매니페스트 파일에 나열된 데이터를 저장하기 위해.
작업의 출력을 저장하고자 하는 S3 버킷의 URL.

훈련 작업에서 증강 매니페스트 파일을 사용하려면(콘솔)

https://console.aws.amazon.com/sagemaker/ Amazon SageMaker AI 콘솔을 엽니다.
탐색 창에서 훈련을 선택한 후 훈련 작업을 선택합니다.
훈련 작업 생성을 선택합니다.
훈련 작업의 이름을 입력합니다. 이름은 AWS 계정의 AWS 리전 내에서 고유해야 합니다. 이름은 1~63자일 수 있습니다. 유효한 문자: a-z, A-Z, 0-9 및 . : + = @ _ % -(하이픈)
사용하려는 알고리즘을 선택합니다. 지원되는 기본 제공 알고리즘에 대한 자세한 내용은 Amazon SageMaker 기본 제공 알고리즘 또는 사전 훈련된 모델 사용 섹션을 참조하세요. 사용자 지정 알고리즘을 사용하려는 경우 해당 알고리즘이 파이프 모드와 호환되는지 확인하세요.
(선택 사항) 리소스 구성에서, 기본값을 수락하거나 계산 시간을 줄이거나 리소스 사용량을 늘립니다.
1. (선택 사항) 인스턴스 유형에서, 사용하려는 ML 컴퓨팅 인스턴스 유형을 선택합니다. 대다수의 경우에 ml.m4.xlarge이면 충분합니다.
2. 인스턴스 수에, 기본값인 1을 사용합니다.
3. (선택 사항) 인스턴스당 추가 볼륨 크기(GB)에서 프로비저닝하려는 ML 스토리지 볼륨의 크기를 선택합니다. 대부분의 경우 기본값인 1을 사용할 수 있습니다. 큰 데이터세트를 사용하는 경우에는 더 큰 크기를 사용합니다.
훈련 데이터세트에 필요한 입력 데이터에 대한 정보를 제공합니다.
1. 채널 이름에서 기본값(train)을 수락하거나 유의미한 이름(예: training-augmented-manifest-file)을 입력합니다.
2. InputMode에서 파이프를 선택합니다.
3. S3 데이터 배포 유형에서 FullyReplicated를 선택합니다. 점진적으로 훈련할 때 완전 복제를 선택하면 각 ML 컴퓨팅 인스턴스가 확장된 데이터세트의 전체 사본을 사용하게 됩니다. 신경 기반 알고리즘(예: Neural Topic Model(NTM) 알고리즘)의 경우 ShardedByS3Key를 선택합니다.
4. 증강 매니페스트 파일에 지정된 데이터가 압축되지 않은 경우 압축 유형을 없음으로 설정합니다. gzip을 사용하여 데이터가 압축된 경우에는 압축 유형을 Gzip으로 설정합니다.
5. (선택 사항) 콘텐츠 유형에서 적절한 MIME 유형을 지정합니다. 콘텐츠 유형은 데이터의 Multipurpose Internet Mail Extensions(MIME) 유형입니다.
6. 증강 매니페스트 파일에 지정된 데이터세트가 RecordIO 형식으로 저장된 경우 레코드 래퍼에서 RecordIO를 선택합니다. 데이터세트가 RecordIO 형식 파일로 저장되지 않은 경우 없음을 선택합니다.
7. S3 데이터 유형에서 AugmentedManifestFile을 선택합니다.
8. S3 위치에서 증강 매니페스트 파일을 저장한 버킷의 경로를 입력합니다.
9. AugmentedManifestFile 속성 이름에, 사용하려는 속성의 이름을 지정합니다. 속성 이름은 증강 매니페스트 파일 내에 포함되어 있어야 하며 대/소문자를 구분합니다.
10. (선택 사항) 속성 이름을 추가하려면 행 추가를 선택하고 각 속성에 대해 다른 속성 이름을 지정합니다.
11. (선택 사항) 속성 이름의 순서를 조정하려면 이름 옆에 있는 위쪽 또는 아래쪽 버튼을 선택합니다. 증강 매니페스트 파일을 사용하는 경우 지정된 속성 이름의 순서가 중요합니다.
12. 완료를 선택합니다.
출력 데이터 구성에 다음 정보를 입력합니다.
1. S3 위치에 출력 데이터를 저장하려는 S3 버킷의 경로를 입력합니다.
2. (선택 사항) AWS Key Management Service (AWS KMS) 암호화 키를 사용하여 저장 시 출력 데이터를 암호화할 수 있습니다. 암호화 키에 키 ID 또는 키의 Amazon 리소스 번호(ARN)를 입력합니다. 자세한 정보는 KMS 관리형 암호화 키를 참조하세요.
(선택 사항) 태그에, 훈련 작업에 하나 이상의 태그를 추가합니다. 태그는 정의하고 AWS 리소스에 할당할 수 있는 메타데이터입니다. 이 경우, 태그를 사용하여 훈련 작업을 관리할 수 있습니다. 태그는 사용자가 정의하는 키와 값으로 구성됩니다. 예를 들어, Project를 키로 사용하고, 훈련 작업과 관련된 프로젝트를 지칭하는 값(예: Home value forecasts)을 사용하여 태그를 생성하려고 할 수 있습니다.
훈련 작업 생성을 선택합니다. SageMaker AI는 훈련 작업을 생성하고 실행합니다.

훈련 작업이 완료되면 SageMaker AI는 출력 데이터 구성 필드에 S3 출력 경로에 대해 제공한 경로의 버킷에 모델 아티팩트를 저장합니다. 예측을 얻기 위해 모델을 배포하려면 Amazon EC2에 모델 배포 섹션을 참조하세요.

증강 매니페스트 파일 사용(API)

다음은 SageMaker AI 상위 수준 Python 라이브러리를 사용하여 증강 매니페스트 파일로 모델을 훈련하는 방법을 보여줍니다.


import sagemaker

# Create a model object set to using "Pipe" mode.
model = sagemaker.estimator.Estimator(
    training_image,
    role,
    instance_count=1,
    instance_type='ml.p3.2xlarge',
    volume_size = 50,
    max_run = 360000,
    input_mode = 'Pipe',
    output_path=s3_output_location,
    sagemaker_session=session
)

# Create a train data channel with S3_data_type as 'AugmentedManifestFile' and attribute names.
train_data = sagemaker.inputs.TrainingInput(
    your_augmented_manifest_file,
    distribution='FullyReplicated',
    content_type='application/x-recordio',
    s3_data_type='AugmentedManifestFile',
    attribute_names=['source-ref', 'annotations'],
    input_mode='Pipe',
    record_wrapping='RecordIO'
)

data_channels = {'train': train_data}

# Train a model.
model.fit(inputs=data_channels, logs=True)

훈련 작업이 완료되면 SageMaker AI는 출력 데이터 구성 필드에 S3 출력 경로에 대해 제공한 경로의 버킷에 모델 아티팩트를 저장합니다. 예측을 얻기 위해 모델을 배포하려면 Amazon EC2에 모델 배포 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

예제: 훈련 및 검증 곡선 보기

파이프 모드 훈련을 위한 증강 매니페스트 파일 형식