레이블 지정을 위한 데이터 필터링 및 선택 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

레이블 지정을 위한 데이터 필터링 및 선택

Amazon SageMaker 콘솔을 사용하여 데이터 세트의 일부를 선택하여 레이블링할 수 있습니다. 데이터는 Amazon S3 버킷에 저장해야 합니다. 여기에는 다음과 같은 3가지 옵션이 있습니다.

  • 전체 데이터 세트 사용

  • 데이터 세트의 무작위로 선택된 샘플 선택

  • 쿼리를 사용하여 데이터 세트의 하위 세트 지정

라벨링 작업 생성을 선택한 후 SageMaker콘솔의 라벨링 작업 섹션에서 다음 옵션을 사용할 수 있습니다. 콘솔에서 레이블 지정 작업을 생성하는 방법은 시작하기 단원을 참조하세요. 레이블 지정에 사용할 데이터 세트를 구성하려면 작업 개요 섹션에서 추가 구성을 선택합니다.

전체 데이터 세트 사용

전체 데이터 세트를 사용하도록 선택한 경우 데이터 객체에 대한 매니페스트 파일을 제공해야 합니다. 매니페스트 파일이 포함된 Amazon S3 버킷의 경로를 제공하거나 SageMaker 콘솔을 사용하여 파일을 생성할 수 있습니다. 콘솔을 사용하여 매니페스트 파일을 생성하는 방법은 자동화된 데이터 설정 단원을 참조하세요.

임의 샘플 선택

데이터의 임의 하위 세트에 레이블을 지정하려면 임의 샘플을 선택합니다. 데이터 세트는 입력 데이터 세트 위치 필드에 지정된 Amazon S3 버킷에 저장됩니다.

샘플에 포함하려는 데이터 객체의 비율을 지정한 후 [Create subset] 을 선택합니다. SageMaker 레이블 지정 작업에 사용할 데이터 개체를 임의로 선택합니다. 객체를 선택한 후 이 하위 세트 사용을 선택합니다.

SageMaker 선택한 데이터 객체에 대한 매니페스트 파일을 만듭니다. 또한 입력 데이터 세트 위치 필드의 값이 새 매니페스트 파일을 가리키도록 수정합니다.

하위 세트 지정

객체 파일 이름에 대한 Amazon S3 SELECT 쿼리를 사용하여 데이터 객체의 하위 세트를 지정할 수 있습니다.

SQL 쿼리의 SELECT 문이 자동으로 정의됩니다. 반환해야 할 데이터 객체를 지정하는 WHERE 절을 입력합니다.

Amazon S3 SELECT 설명에 대한 자세한 내용은 객체에서 콘텐츠 선택하기를 참조하세요.

하위 세트 생성을 선택한 후 이 하위 세트 사용을 선택하여 선택한 데이터를 사용합니다.

SageMaker 선택한 데이터 개체에 대한 매니페스트 파일을 만듭니다. 또한 새 매니페스트 파일을 가리키도록 입력 데이터 세트 위치 필드의 값을 업데이트합니다.