증강 매니페스트 파일을 사용하여 훈련 작업에 데이터 세트 메타데이터 제공 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

증강 매니페스트 파일을 사용하여 훈련 작업에 데이터 세트 메타데이터 제공

훈련 작업에 데이터 세트와 함께 메타데이터를 포함하려면 증강 매니페스트 파일을 사용합니다. 증강 매니페스트 파일을 사용할 때 Amazon Simple Storage Service (Amazon S3) 에 저장해야 하며, 여기에 저장된 데이터세트를 사용하도록 훈련 작업을 구성해야 합니다. 하나 이상의 Channel에 대해 이 데이터 세트의 위치 및 형식을 지정합니다. 증강 매니페스트는 파이프 입력 모드만 지원할 수 있습니다. 단원을 참조하십시오.InputMode에서Channel파이프 입력 모드에 대해 자세히 알아봅니다.

채널의 파라미터를 지정할 때 라고 하는 파일의 경로를 지정합니다.S3Uri. 아마존 SageMaker 는 지정된 를 기반으로 이 URI를 해석합니다.S3DataType에서S3DataSource. AugmentedManifestFile 옵션은 입력 데이터와 함께 메타데이터를 포함하는 매니페스트 형식을 정의합니다. 증강 매니페스트 파일을 사용하면 데이터를 라벨링한 경우 전처리를 수행할 필요가 없습니다. 라벨링된 데이터를 사용하는 훈련 작업의 경우 훈련 전에 입력 데이터를 메타데이터와 결합하기 위해 데이터 세트를 전처리해야 합니다. 훈련 데이터 세트가 크면 사전 처리에 많은 시간과 비용이 들어갈 수 있습니다.

증강 매니페스트 파일 형식

증강 매니페스트 파일은 JSON Lines 형식이어야 합니다. JSON Lines 형식에서 파일의 각 행은 뒤에 줄 바꿈 구분자가 붙는 완전한 JSON 객체입니다.

교육 중, SageMaker 에서는 각 JSON 행을 구문 분석해 해당 행의 속성 중 일부 또는 전부를 훈련 알고리즘으로 보냅니다. CreateTrainingJob API의 AttributeNames 파라미터를 사용하여 전달한 속성 콘텐츠와 전달 순서를 지정합니다. 이AttributeNames매개 변수는 다음과 같은 속성 이름의 정렬된 목록입니다. SageMaker 에서 훈련 입력으로 사용할 JSON 객체를 찾습니다.

예를 들어 AttributeNames에 대해 ["line", "book"]이 나열된 경우 입력 데이터에는 linebook이라는 속성 이름이 지정된 순서대로 포함되어 있어야 합니다. 이 예에서는 다음 증강 매니페스트 파일 내용이 유효합니다.

{"author": "Herman Melville", "line": "Call me Ishmael", "book": "Moby Dick"} {"line": "It was love at first sight.", "author": "Joseph Heller", "book": "Catch-22"}

나열된 속성 앞에 혹은 뒤에 오거나, 나열된 속성 사이에 있더라도 SageMaker는 무시합니다.

증강 매니페스트 파일을 사용하는 경우 다음 지침을 준수하십시오.

  • AttributeNames 파라미터에 나열된 속성의 순서대로 훈련 작업에서 알고리즘에 속성이 전달됩니다.

  • 나열된AttributeNames는 JSON 행에 있는 모든 속성의 하위 세트일 수 있습니다. SageMaker 는 파일에서 나열되지 않은 속성을 무시합니다.

  • AttributeNames에서 텍스트, 숫자, 데이터 배열 또는 객체 등을 포함해 JSON 형식에서 허용하는 데이터 유형을 지정할 수 있습니다.

  • S3 URI를 속성 이름으로 포함하려면 속성 이름에 접미사 -ref를 추가합니다.

속성 이름에 접미사 -ref가 포함되어 있으면 이 속성의 값은 훈련 작업에 액세스할 수 있는 데이터 파일에 대한 S3 URI여야 합니다. 예:AttributeNames포함["image-ref", "is-a-cat"]다음 예제에서는 유효한 증강 매니페스트 파일을 보여줍니다.

{"image-ref": "s3://mybucket/sample01/image1.jpg", "is-a-cat": 1} {"image-ref": "s3://mybucket/sample02/image2.jpg", "is-a-cat": 0}

이 매니페스트 파일의 첫 번째 JSON 행의 경우 SageMaker 를 검색합니다.image1.jpg에서 파일s3://mybucket/sample01/과 의 문자열 표현is-a-cat속성"1"이미지 분류를 위한 것입니다.

작은 정보

증강 매니페스트 파일을 생성하려면 Amazon을 사용합니다. SageMaker Ground Truth 세우고 라벨링 작업을 생성합니다. 레이블 지정 작업의 출력에 대한 자세한 내용은 단원을 참조하십시오.출력 데이터.

증강 매니페스트 파일 데이터 스트리밍

증강 매니페스트 형식을 사용하면 RecordIO 파일을 생성할 필요 없이 파이프 모드에서 훈련할 수 있습니다. CreateTrainingJob 요청의 InputDataConfig 파라미터에 대한 값으로 train 및 validation 채널을 둘 다 지정해야 합니다. 증강 매니페스트 파일은 파이프 입력 모드를 사용하는 채널에 대해서만 지원됩니다. 각 채널에서 데이터는 해당 증강 매니페스트 파일에서 추출되어 채널의 명명된 파이프를 통해 순서에 따라 알고리즘으로 스트리밍됩니다. 파이프 모드는 선입선출(FIFO) 방식을 사용합니다. 따라서 대기된 순서대로 레코드가 처리됩니다. 파이프 입력 모드에 대한 자세한 내용은Input Mode.

"-ref" 접미사가 붙은 속성 이름은 형식이 미리 지정된 이진 데이터를 나타냅니다. 경우에 따라 이 알고리즘은 데이터를 구문 분석하는 방법을 알고 있습니다. 다른 경우, 알고리즘에 대해 레코드를 분리하도록 데이터를 래핑해야 할 수 있습니다. 알고리즘이 RecordIO 형식 데이터와 호환되는 경우 RecordWrapperType에 대해 RecordIO를 지정하면 이 문제를 해결할 수 있습니다. 이 알고리즘이 RecordIO 형식과 호환되지 않는 경우 RecordWrapperType에 대해 None을 지정하고 알고리즘에 대해 데이터가 정확하게 구문 분석되었는지 확인하십시오.

RecordIO 래핑을 사용하는 경우 ["image-ref", "is-a-cat"] 예에서는 다음 데이터 스트림이 대기열로 전송됩니다.

recordio_formatted(s3://mybucket/foo/image1.jpg)recordio_formatted("1")recordio_formatted(s3://mybucket/bar/image2.jpg)recordio_formatted("0")

RecordIO 형식으로 래핑되지 않은 이미지는 해당 형식으로 스트리밍됩니다.is-a-cat속성 값을 하나의 레코드로 사용합니다. 이 경우, 알고리즘이 이미지와 속성을 정확하게 구분하지 못할 수 있기 때문에 문제가 발생할 수 있습니다. 증강 매니페스트 파일을 이미지 분류에 사용하는 방법에 대한 자세한 내용은 단원을 참조하십시오.증강 매니페스트 이미지 형식을 사용한 훈련.

일반적으로 증강 매니페스트 파일과 파이프 모드를 사용하는 경우 EBS 볼륨의 크기 제한이 적용되지 않습니다. 여기에는 과 같은 EBS 볼륨 크기 제한 내에 있어야 하는 설정이 포함됩니다.S3DataDistributionType . 파이프 모드와 이 모드를 사용하는 방법에 대한 자세한 내용은 를 참조하십시오.자체 훈련 알고리즘 사용 - 입력 데이터 구성.

증강 매니페스트 파일 사용(콘솔)

이 절차를 완료하려면 다음이 필요합니다.

  • 증강 매니페스트 파일을 저장한 S3 버킷의 URL

  • 증강 매니페스트 파일에 나열된 데이터를 S3 버킷에 저장

  • 작업의 출력을 저장하고자 하는 S3 버킷의 URL.

훈련 작업에서 증강 매니페스트 파일을 사용하려면(콘솔)

  1. Amazon 열기 SageMaker 에서https://console.aws.amazon.com/sagemaker/.

  2. 탐색 창에서 훈련을 선택한 후 훈련 작업을 선택합니다.

  3. 훈련 작업 생성을 선택합니다.

  4. 훈련 작업의 이름을 입력합니다. 이름은 에서 고유해야 합니다.AWS지역 내AWS계정. 이름은 1~63자일 수 있습니다. 유효한 문자: a-z, A-Z, 0-9 및 . : + = @ _ % -(하이픈)

  5. 사용하려는 알고리즘을 선택합니다. 지원되는 기본 제공 알고리즘에 대한 자세한 내용은 Amazon 사용 SageMaker 내장 알고리즘 또는 사전 훈련된 모델 단원을 참조하십시오. 사용자 지정 알고리즘을 사용하려는 경우 해당 알고리즘이 파이프 모드와 호환되는지 확인하십시오.

  6. (선택 사항) 리소스 구성에서, 기본값을 수락하거나 계산 시간을 줄이거나 리소스 사용량을 늘립니다.

    1. (선택 사항) 인스턴스 유형에서, 사용하려는 ML 컴퓨팅 인스턴스 유형을 선택합니다. 대다수의 경우에 ml.m4.xlarge이면 충분합니다.

    2. 인스턴스 수에, 기본값인 1을 사용합니다.

    3. (선택 사항) 인스턴스당 추가 볼륨 크기(GB)에서 프로비저닝하려는 ML 스토리지 볼륨의 크기를 선택합니다. 대부분의 경우 기본값인 1을 사용할 수 있습니다. 큰 데이터 세트를 사용하는 경우에는 더 큰 크기를 사용합니다.

  7. 훈련 데이터 세트에 필요한 입력 데이터에 대한 정보를 제공합니다.

    1. 채널 이름에서 기본값(train)을 수락하거나 유의미한 이름(예: training-augmented-manifest-file)을 입력합니다.

    2. InputMode에서 파이프를 선택합니다.

    3. S3 데이터 배포 유형에서 FullyReplicated를 선택합니다. 점진적으로 훈련할 때 완전 복제를 선택하면 각 ML 컴퓨팅 인스턴스가 확장된 데이터 세트의 전체 사본을 사용하게 됩니다. 신경 기반 알고리즘(예: Neural Topic Model(NTM) 알고리즘)의 경우 ShardedByS3Key를 선택합니다.

    4. 증강 매니페스트 파일에 지정된 데이터가 압축되지 않은 경우 압축 유형없음으로 설정합니다. gzip을 사용하여 데이터가 압축된 경우에는 압축 유형을 Gzip으로 설정합니다.

    5. (선택 사항) 콘텐츠 유형에서 적절한 MIME 유형을 지정합니다. 콘텐츠 유형은 데이터의 Multipurpose Internet Mail Extensions(MIME) 유형입니다.

    6. 증강 매니페스트 파일에 지정된 데이터 세트가 RecordIO 형식으로 저장된 경우 레코드 래퍼에서 RecordIO를 선택합니다. 데이터 세트가 RecordIO 형식 파일로 저장되지 않은 경우 없음을 선택합니다.

    7. S3 데이터 유형에서 AugmentedManifestFile을 선택합니다.

    8. S3 위치에서 증강 매니페스트 파일을 저장한 버킷의 경로를 입력합니다.

    9. AugmentedManifestFile 속성 이름에, 사용하려는 속성의 이름을 지정합니다. 속성 이름은 증강 매니페스트 파일 내에 포함되어 있어야 하며 대/소문자를 구분합니다.

    10. (선택 사항) 속성 이름을 추가하려면 행 추가를 선택하고 각 속성에 대해 다른 속성 이름을 지정합니다.

    11. (선택 사항) 속성 이름의 순서를 조정하려면 이름 옆에 있는 위쪽 또는 아래쪽 버튼을 선택합니다. 증강 매니페스트 파일을 사용하는 경우 지정된 속성 이름의 순서가 중요합니다.

    12. 완료를 선택합니다.

  8. 출력 데이터 구성에 다음 정보를 입력합니다.

    1. S3 위치에 출력 데이터를 저장하려는 S3 버킷의 경로를 입력합니다.

    2. (선택 사항) AWS Key Management Service(AWS KMS) 암호화 키를 사용하여 저장된 출력 데이터를 암호화할 수 있습니다. 암호화 키에 키 ID 또는 키의 Amazon 리소스 번호(ARN)를 입력합니다. 자세한 정보는 KMS 관리형 암호화 키를 참조하십시오.

  9. (선택 사항) 태그에, 훈련 작업에 하나 이상의 태그를 추가합니다. A태그정의하여 할당할 수 있는 메타데이터입니다.AWS있습니다. 이 경우, 태그를 사용하여 훈련 작업을 관리할 수 있습니다. 태그는 사용자가 정의하는 키와 값으로 구성됩니다. 예를 들어, Project를 키로 사용하고, 훈련 작업과 관련된 프로젝트를 지칭하는 값(예: Home value forecasts)을 사용하여 태그를 생성하려고 할 수 있습니다.

  10. 선택훈련 작업 생성. SageMaker 훈련 작업을 생성해 실행합니다.

교육 작업을 마친 후 SageMaker 은 (는) 지정한 경로를 가진 버킷에 모델 아티팩트를 저장합니다.Output S3 경로출력 데이터 구성필드. 예측을 얻기 위해 모델을 배포하려면 5단계: Amazon EC2 EC2에 모델 배포 단원을 참조하십시오.

증강 매니페스트 파일 사용(API)

다음은 증강 매니페스트 파일을 사용하여 모델을 훈련하는 방법을 보여줍니다.를 사용하여 SageMaker 상위 수준 Python 라이브러리:

import sagemaker # Create a model object set to using "Pipe" mode. model = sagemaker.estimator.Estimator( training_image, role, instance_count=1, instance_type='ml.p3.2xlarge', volume_size = 50, max_run = 360000, input_mode = 'Pipe', output_path=s3_output_location, sagemaker_session=session ) # Create a train data channel with S3_data_type as 'AugmentedManifestFile' and attribute names. train_data = sagemaker.inputs.TrainingInput( your_augmented_manifest_file, distribution='FullyReplicated', content_type='application/x-recordio', s3_data_type='AugmentedManifestFile', attribute_names=['source-ref', 'annotations'], input_mode='Pipe', record_wrapping='RecordIO' ) data_channels = {'train': train_data} # Train a model. model.fit(inputs=data_channels, logs=True)

교육 작업을 마친 후 SageMaker 은 (는) 지정한 경로를 가진 버킷에 모델 아티팩트를 저장합니다.Output S3 경로출력 데이터 구성필드. 예측을 얻기 위해 모델을 배포하려면 5단계: Amazon EC2 EC2에 모델 배포 단원을 참조하십시오.