증강 매니페스트 파일을 사용하여 훈련 작업에 데이터 세트 메타데이터 제공 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

증강 매니페스트 파일을 사용하여 훈련 작업에 데이터 세트 메타데이터 제공

훈련 작업에 데이터 세트와 함께 메타데이터를 포함하려면 증강 매니페스트 파일을 사용합니다. 증강 매니페스트 파일을 사용할 때 데이터 세트는 Amazon Simple Storage Service(S3)에 저장해야 하고 여기 저장된 데이터 세트를 사용하도록 훈련 작업을 구성해야 합니다. 하나 이상의 Channel에 대해 이 데이터 세트의 위치 및 형식을 지정합니다. 증강 매니페스트는 파이프 입력 모드만 지원할 수 있습니다. 파이프 입력 모드에 대한 자세한 내용은 InputModeChannel섹션을 참조하십시오.

채널의 파라미터를 지정할 때 S3Uri라고 하는 파일에 대한 경로를 지정합니다. Amazon은 지정된 내용을 기반으로 이 URI를 SageMaker 해석합니다S3DataType. S3DataSource AugmentedManifestFile 옵션은 입력 데이터와 함께 메타데이터를 포함하는 매니페스트 형식을 정의합니다. 증강 매니페스트 파일을 사용하면 데이터를 라벨링한 경우 전처리를 수행할 필요가 없습니다. 라벨링된 데이터를 사용하는 훈련 작업의 경우 훈련 전에 입력 데이터를 메타데이터와 결합하기 위해 데이터 세트를 전처리해야 합니다. 훈련 데이터 세트가 크면 사전 처리에 많은 시간과 비용이 들어갈 수 있습니다.

증강 매니페스트 파일 형식

증강 매니페스트 파일은 JSON Lines 형식이어야 합니다. JSON Lines 형식에서 파일의 각 행은 뒤에 줄 바꿈 구분자가 붙는 완전한 JSON 객체입니다.

훈련 중에 각 JSON 라인을 SageMaker 파싱하여 해당 속성의 일부 또는 전부를 교육 알고리즘에 전송합니다. CreateTrainingJob API의 AttributeNames 파라미터를 사용하여 전달한 속성 콘텐츠와 전달 순서를 지정합니다. AttributeNames파라미터는 훈련 입력으로 사용할 JSON 객체에서 찾아 속성 이름을 정렬한 SageMaker 목록입니다.

예를 들어 AttributeNames에 대해 ["line", "book"]이 나열된 경우 입력 데이터에는 linebook이라는 속성 이름이 지정된 순서대로 포함되어 있어야 합니다. 이 예에서는 다음 증강 매니페스트 파일 내용이 유효합니다.

{"author": "Herman Melville", "line": "Call me Ishmael", "book": "Moby Dick"} {"line": "It was love at first sight.", "author": "Joseph Heller", "book": "Catch-22"}

SageMaker 목록에 없는 속성 이름이 나열된 속성의 앞, 다음 또는 사이에 있더라도 무시합니다.

증강 매니페스트 파일을 사용하는 경우 다음 지침을 준수하세요.

  • AttributeNames 파라미터에 나열된 속성의 순서대로 훈련 작업에서 알고리즘에 속성이 전달됩니다.

  • 나열된 속성은 AttributeNames JSON 라인에 있는 모든 속성의 하위 집합일 수 있습니다. SageMaker 파일에 나열되지 않은 속성은 무시합니다.

  • AttributeNames에서 텍스트, 숫자, 데이터 배열 또는 객체 등을 포함해 JSON 형식에서 허용하는 데이터 유형을 지정할 수 있습니다.

  • S3 URI를 속성 이름으로 포함하려면 속성 이름에 접미사 -ref를 추가합니다.

속성 이름에 접미사 -ref가 포함되어 있으면 이 속성의 값은 훈련 작업에 액세스할 수 있는 데이터 파일에 대한 S3 URI여야 합니다. 예를 들어, AttributeNames["image-ref", "is-a-cat"]가 포함된 경우 다음 예제는 유효한 증강 매니페스트 파일을 보여줍니다.

{"image-ref": "s3://mybucket/sample01/image1.jpg", "is-a-cat": 1} {"image-ref": "s3://mybucket/sample02/image2.jpg", "is-a-cat": 0}

이 매니페스트 파일의 첫 번째 JSON 줄의 경우 이미지 분류를 위해 속성의 문자열 s3://mybucket/sample01/ 표현과 image1.jpg 파일을 SageMaker 검색합니다is-a-cat. "1"

작은 정보

증강 매니페스트 파일을 생성하려면 Amazon SageMaker Ground Truth를 사용하여 레이블 지정 작업을 생성하십시오. 레이블 지정 작업의 출력에 대한 자세한 내용은 출력 데이터을 참고하세요.

증강 매니페스트 파일 데이터 스트리밍

증강 매니페스트 형식을 사용하면 RecordIO 파일을 생성할 필요 없이 파일을 사용하여 파이프 모드에서 훈련을 수행할 수 있습니다. CreateTrainingJob 요청의 InputDataConfig 파라미터에 대한 값으로 train 및 validation 채널을 둘 다 지정해야 합니다. 증강 매니페스트 파일은 파이프 입력 모드를 사용하는 채널에 대해서만 지원됩니다. 각 채널에서 데이터는 해당 증강 매니페스트 파일에서 추출되어 채널의 명명된 파이프를 통해 순서에 따라 알고리즘으로 스트리밍됩니다. 파이프 모드는 선입선출(FIFO) 방식을 사용합니다. 따라서 대기된 순서대로 레코드가 처리됩니다. 파이프 입력 모드에 대한 자세한 내용은 Input Mode를 참조하세요.

"-ref" 접미사가 붙은 속성 이름은 형식이 미리 지정된 바이너리 데이터를 나타냅니다. 경우에 따라 이 알고리즘은 데이터를 구문 분석하는 방법을 알고 있습니다. 다른 경우, 알고리즘에 대해 레코드를 분리하도록 데이터를 래핑해야 할 수 있습니다. 알고리즘이 RecordIO 형식 데이터와 호환되는 경우 RecordWrapperType에 대해 RecordIO를 지정하면 이 문제를 해결할 수 있습니다. 이 알고리즘이 RecordIO 형식과 호환되지 않는 경우 RecordWrapperType에 대해 None을 지정하고 알고리즘에 대해 데이터가 정확하게 구문 분석되었는지 확인하세요.

RecordIO 래핑을 사용하는 경우 ["image-ref", "is-a-cat"] 예에서는 다음 데이터 스트림이 대기열로 전송됩니다.

recordio_formatted(s3://mybucket/foo/image1.jpg)recordio_formatted("1")recordio_formatted(s3://mybucket/bar/image2.jpg)recordio_formatted("0")

RecordIO 형식으로 래핑되지 않은 이미지는 해당 is-a-cat 속성 값을 하나의 레코드로 포함해 스트리밍됩니다. 이 경우, 알고리즘이 이미지와 속성을 정확하게 구분하지 못할 수 있기 때문에 문제가 발생할 수 있습니다. 이미지 분류에 증강형 매니페스트 파일을 사용하는 방법에 대한 자세한 내용은 증강 매니페스트 이미지 형식을 사용한 훈련을 참고하세요.

일반적으로 증강 매니페스트 파일과 파이프 모드를 사용하는 경우 EBS 볼륨의 크기 제한이 적용되지 않습니다. 여기에는 S3DataDistributionType 과 같은 EBS 볼륨 크기 제한 내에 있어야 하는 설정이 포함됩니다. 파이프라인 모드와 이 모드를 사용하는 방법에 대한 자세한 정보는 자체 훈련 알고리즘 사용 - 입력 데이터 구성을 참고하세요.

증강 매니페스트 파일 사용(콘솔)

이 절차를 완료하려면 다음이 필요합니다.

  • 증강 매니페스트 파일을 저장한 S3 버킷의 URL

  • 증강 매니페스트 파일에 나열된 데이터를 S3 버킷에 저장

  • 작업의 출력을 저장하고자 하는 S3 버킷의 URL.

훈련 작업에서 증강 매니페스트 파일을 사용하려면(콘솔)
  1. https://console.aws.amazon.com/sagemaker/ 에서 아마존 SageMaker 콘솔을 엽니다.

  2. 탐색 창에서 훈련을 선택한 후 훈련 작업을 선택합니다.

  3. 훈련 작업 생성을 선택합니다.

  4. 훈련 작업의 이름을 입력합니다. 이름은 AWS 계정의 특정 AWS 지역 내에서 고유해야 합니다. 이름은 1~63자일 수 있습니다. 유효한 문자: a-z, A-Z, 0-9 및 . : + = @ _ % -(하이픈)

  5. 사용하려는 알고리즘을 선택합니다. 지원되는 기본 제공 알고리즘에 대한 자세한 내용은 Amazon SageMaker 내장 알고리즘 또는 사전 학습된 모델 사용 섹션을 참조하세요. 사용자 지정 알고리즘을 사용하려는 경우 해당 알고리즘이 파이프 모드와 호환되는지 확인하세요.

  6. (선택 사항) 리소스 구성에서, 기본값을 수락하거나 계산 시간을 줄이거나 리소스 사용량을 늘립니다.

    1. (선택 사항) 인스턴스 유형에서, 사용하려는 ML 컴퓨팅 인스턴스 유형을 선택합니다. 대다수의 경우에 ml.m4.xlarge이면 충분합니다.

    2. 인스턴스 수에, 기본값인 1을 사용합니다.

    3. (선택 사항) 인스턴스당 추가 볼륨 크기(GB)에서 프로비저닝하려는 ML 스토리지 볼륨의 크기를 선택합니다. 대부분의 경우 기본값인 1을 사용할 수 있습니다. 큰 데이터 세트를 사용하는 경우에는 더 큰 크기를 사용합니다.

  7. 훈련 데이터 세트에 필요한 입력 데이터에 대한 정보를 제공합니다.

    1. 채널 이름에서 기본값(train)을 수락하거나 유의미한 이름(예: training-augmented-manifest-file)을 입력합니다.

    2. InputModeFipe를 선택하려면 Pipe를 선택하십시오.

    3. S3 데이터 배포 유형의 경우 선택합니다 FullyReplicated. 점진적으로 훈련할 때 완전 복제를 선택하면 각 ML 컴퓨팅 인스턴스가 확장된 데이터 세트의 전체 사본을 사용하게 됩니다. 신경 기반 알고리즘(예: Neural Topic Model(NTM) 알고리즘)의 경우 ShardedByS3Key를 선택합니다.

    4. 증강 매니페스트 파일에 지정된 데이터가 압축되지 않은 경우 압축 유형없음으로 설정합니다. gzip을 사용하여 데이터가 압축된 경우에는 압축 유형을 Gzip으로 설정합니다.

    5. (선택 사항) 콘텐츠 유형에서 적절한 MIME 유형을 지정합니다. 콘텐츠 유형은 데이터의 Multipurpose Internet Mail Extensions(MIME) 유형입니다.

    6. 증강 매니페스트 파일에 지정된 데이터 세트가 RecordIO 형식으로 저장된 경우 레코드 래퍼에서 RecordIO를 선택합니다. 데이터 세트가 RecordIO 형식 파일로 저장되지 않은 경우 없음을 선택합니다.

    7. S3 데이터 유형의 경우 선택합니다 AugmentedManifestFile.

    8. S3 위치에서 증강 매니페스트 파일을 저장한 버킷의 경로를 입력합니다.

    9. AugmentedManifestFile 속성 이름의 경우 사용하려는 속성의 이름을 지정합니다. 속성 이름은 증강 매니페스트 파일 내에 포함되어 있어야 하며 대/소문자를 구분합니다.

    10. (선택 사항) 속성 이름을 추가하려면 행 추가를 선택하고 각 속성에 대해 다른 속성 이름을 지정합니다.

    11. (선택 사항) 속성 이름의 순서를 조정하려면 이름 옆에 있는 위쪽 또는 아래쪽 버튼을 선택합니다. 증강 매니페스트 파일을 사용하는 경우 지정된 속성 이름의 순서가 중요합니다.

    12. 완료를 선택합니다.

  8. 출력 데이터 구성에 다음 정보를 입력합니다.

    1. S3 위치에 출력 데이터를 저장하려는 S3 버킷의 경로를 입력합니다.

    2. (선택 사항) AWS Key Management Service (AWS KMS) 암호화 키를 사용하여 저장된 출력 데이터를 암호화할 수 있습니다. 암호화 키에 키 ID 또는 키의 Amazon 리소스 번호(ARN)를 입력합니다. 자세한 정보는 KMS 관리형 암호화 키를 참조하세요.

  9. (선택 사항) 태그에, 훈련 작업에 하나 이상의 태그를 추가합니다. 태그는 정의하고 AWS 리소스에 할당할 수 있는 메타데이터입니다. 이 경우, 태그를 사용하여 훈련 작업을 관리할 수 있습니다. 태그는 사용자가 정의하는 키와 값으로 구성됩니다. 예를 들어, Project를 키로 사용하고, 훈련 작업과 관련된 프로젝트를 지칭하는 값(예: Home value forecasts)을 사용하여 태그를 생성하려고 할 수 있습니다.

  10. 교육 작업 생성을 선택합니다. SageMaker 교육 작업을 생성하고 실행합니다.

교육 작업이 끝나면 출력 데이터 구성 필드에 S3 출력 경로에 대해 경로를 제공한 버킷에 모델 아티팩트를 SageMaker 저장합니다. 예측을 얻기 위해 모델을 배포하려면 5단계: Amazon EC2에 모델 배포 섹션을 참조하세요.

증강 매니페스트 파일 사용(API)

다음은 SageMaker 고수준 Python 라이브러리를 사용하여 증강 매니페스트 파일로 모델을 학습시키는 방법을 보여줍니다.

import sagemaker # Create a model object set to using "Pipe" mode. model = sagemaker.estimator.Estimator( training_image, role, instance_count=1, instance_type='ml.p3.2xlarge', volume_size = 50, max_run = 360000, input_mode = 'Pipe', output_path=s3_output_location, sagemaker_session=session ) # Create a train data channel with S3_data_type as 'AugmentedManifestFile' and attribute names. train_data = sagemaker.inputs.TrainingInput( your_augmented_manifest_file, distribution='FullyReplicated', content_type='application/x-recordio', s3_data_type='AugmentedManifestFile', attribute_names=['source-ref', 'annotations'], input_mode='Pipe', record_wrapping='RecordIO' ) data_channels = {'train': train_data} # Train a model. model.fit(inputs=data_channels, logs=True)

학습 작업이 끝나면 출력 데이터 구성 필드에 S3 출력 경로로 경로를 입력한 버킷에 모델 아티팩트를 SageMaker 저장합니다. 예측을 얻기 위해 모델을 배포하려면 5단계: Amazon EC2에 모델 배포 섹션을 참조하세요.