Amazon SageMaker Ground Truth를 사용하여 데이터에 레이블 지정 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker Ground Truth를 사용하여 데이터에 레이블 지정

기계 학습 모델을 훈련시키려면 레이블이 지정된 대량의 고품질 데이터 세트가 필요합니다. Ground Truth는 기계 학습 모델을 위한 고품질 훈련 데이터 세트를 구축하는 데 도움이 됩니다. Ground Truth를 사용하면 사용자가 선택한 공급업체인 Amazon Mechanical Turk의 워커 또는 기계 학습과 함께 내부 개인 작업 인력을 사용하여 레이블이 지정된 데이터 세트를 만들 수 있습니다. Ground Truth의 레이블이 지정된 데이터 세트 결과를 사용하여 자체 모델을 훈련할 수 있습니다. 출력을 Amazon SageMaker 모델의 교육 데이터 세트로 사용할 수도 있습니다.

ML 애플리케이션에 따라 Ground Truth 기본 제공 태스크 유형 중 하나를 선택하여 워커가 데이터에 대한 특정 유형의 레이블을 생성하도록 할 수 있습니다. 사용자 지정 레이블 지정 워크플로를 빌드하여 데이터에 레이블을 지정하는 작업자에게 자체 UI 및 도구를 제공할 수도 있습니다. Ground Truth 기본 제공 태스크 유형에 대한 자세한 내용은 기본 제공 작업 유형을 참고하세요. 사용자 지정 레이블 지정 워크플로를 생성하는 방법은 사용자 지정 라벨링 워크플로우 생성 단원을 참조하세요.

훈련 데이터 세트의 레이블 지정을 자동화하기 위해, 기계 학습을 사용하여 사람이 레이블을 지정해야 하는 데이터를 결정하는 Ground Truth 프로세스인 자동화된 데이터 레이블 지정 작업을 선택적으로 사용할 수 있습니다. 자동화된 데이터 라벨링은 필요한 라벨링 시간 및 수작업을 줄일 수 있습니다. 자세한 내용은 데이터 레이블 지정 자동화을 참고하세요. 사용자 지정 레이블 지정 워크플로우를 생성하는 방법은 사용자 지정 라벨링 워크플로우 생성을 참고하세요.

사전 빌드된 도구 또는 사용자 도구를 사용하여 훈련 데이터 세트에 라벨링 작업을 할당합니다. UI 템플릿 레이블 지정은 Ground Truth가 워커에게 작업 및 지침을 제공하는 데 사용하는 웹 페이지입니다. SageMaker 콘솔은 데이터에 레이블을 지정하기 위한 내장 템플릿을 제공합니다. 이러한 템플릿을 사용하여 시작하거나 HTML 2.0 구성 요소를 사용하여 고유한 작업 및 지침을 작성할 수 있습니다. 자세한 정보는 사용자 지정 라벨링 워크플로우 생성을 참조하세요.

선택한 작업 인력을 사용하여 데이터 레이블을 지정합니다. 다음 중에서 작업 인력을 선택할 수 있습니다.

  • 전 세계 50만 이상의 독립적 계약업체로 구성된 Amazon Mechanical Turk 작업 인력

  • 조직 내에서 데이터를 처리하기 위해 자체 직원 또는 계약업체로 구성된 프라이빗 작업 인력

  • 데이터 레이블 지정 서비스를 전문으로 AWS Marketplace 하는 공급업체 회사를 찾을 수 있습니다.

자세한 정보는 작업 인력 생성 및 관리을 참조하세요.

사용자는 데이터 세트를 Amazon S3 버킷에 저장합니다. 버킷에는 레이블을 지정할 데이터, Ground Truth가 데이터 파일을 읽는 데 사용할 입력 매니페스트 파일 및 출력 매니페스트 파일, 이렇게 3가지가 들어 있습니다. 출력 파일에는 라벨링 작업의 결과가 포함됩니다. 자세한 정보는 입력 및 출력 데이터 사용을 참조하세요.

라벨 제작 작업의 이벤트는 Amazon에서 /aws/sagemaker/LabelingJobs 그룹 CloudWatch 아래에 표시됩니다. CloudWatch 라벨링 작업 이름을 로그 스트림의 이름으로 사용합니다.

Ground Truth를 처음 사용하십니까?

Ground Truth를 처음 사용할 경우 다음을 수행하는 것이 좋습니다.

  1. 시작하기 읽기 - 이 단원에서는 Ground Truth 레이블 지정 작업을 처음 설정하는 방법을 알려드립니다.

  2. 기타 주제 알아보기 - 필요에 따라 다음을 수행합니다.

    • 기본 제공 태스크 유형 살펴보기 - 기본 제공 태스크 유형을 사용하여 레이블 지정 작업 생성 프로세스를 간소화합니다. Ground Truth 기본 제공 태스크 유형에 대한 자세한 내용은 기본 제공 작업 유형을 참고하세요.

    • 레이블 지정 인력 관리 - 새 작업 팀을 만들고 기존 인력을 관리합니다. 자세한 내용은 작업 인력 생성 및 관리을 참고하세요.

    • 스트리밍 레이블 지정 작업에 대해 알아보기 - 스트리밍 레이블 지정 작업을 생성하고 지속적으로 실행되는 레이블 지정 작업을 사용하여 새로운 데이터 세트 객체를 워커에게 실시간으로 전송합니다. 레이블 지정 작업이 활성화되어 있고 새 객체가 전송되는 한 워커는 레이블을 지정할 새 데이터 객체를 계속 받습니다. 자세한 내용은 Ground Truth 스트리밍 레이블 지정 작업 단원을 참조하세요.

  3. Reference 확인 - 이 단원에서는 Ground Truth 작업 자동화를 위한 작업에 대해 설명합니다.