작업자에게 전송되는 데이터 객체의 흐름을 제어합니다. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

작업자에게 전송되는 데이터 객체의 흐름을 제어합니다.

생성하는 레이블 지정 작업의 유형에 따라 Amazon SageMaker Ground Truth는 데이터 객체를 일괄적으로 또는 스트리밍 방식으로 작업자에게 보냅니다. 다음과 같은 방법으로 작업자에 전달되는 데이터 객체의 흐름을 제어할 수 있습니다.

  • 두 가지 유형의 레이블 지정 작업 모두에 대해 레이블 지정 작업이 실행되는 특정 시점에서 모든 작업자가 사용할 수 있는 총 데이터 객체 수를 제어하는데 MaxConcurrentTaskCount를 사용할 수 있습니다.

  • 스트리밍 레이블 지정 작업의 경우 레이블 지정 작업과 관련된 Amazon SQS로 전송되는 데이터 객체의 수를 모니터링하고 제어하여 작업자에게 전달되는 데이터 객체의 흐름을 제어할 수 있습니다.

다음 섹션을 통해 이런 옵션에 대해 자세히 알아보십시오. 스트리밍 레이블 지정 작업에 대한 자세한 내용은 Ground Truth 스트리밍 레이블 지정 작업 섹션을 참조하십시오.

데이터 객체의 흐름을 제어하는 MaxConcurrentTaskCount 데 사용합니다.

MaxConcurrentTaskCount는 인간 작업자가 동시에 레이블을 지정할 수 있는 최대 데이터 객체 수를 정의합니다. 콘솔을 사용하는 경우 이 파라미터는 1,000으로 설정됩니다. CreateLabelingJob을 사용하는 경우 이 파라미터를 1에서 1,000 사이의 정수로 설정할 수 있습니다 (1 및 1,000 포함).

입력 매니페스트 파일을 사용하여 레이블 지정 작업을 시작하면 Ground Truth는 다음을 수행합니다.

  1. 입력 매니페스트 파일에 나열된 각 데이터 객체에 대해 NumberOfHumanWorkersPerDataObject에 지정한 값에 따라 하나 이상의 작업이 생성됩니다. 예를 들어 데이터 객체당 작업자 수를 3으로 설정하면 각 데이터 세트 객체에 대해 작업 3개가 생성됩니다. 레이블이 성공적으로 지정된 것으로 표시되려면 최소한 한 명의 작업자가 객체에 레이블을 지정해야 합니다. 또는 작업이 만료되거나 거부될 수 있습니다.

  2. Mechanical Turk 인력을 사용하는 경우 Ground Truth는 먼저 작업자에게 10개의 데이터 세트 객체로 이루어진 배치를 전송합니다. 그러면 이 작은 배치를 사용하여 레이블 지정 작업을 설정하고 작업이 올바르게 구성되었는지 확인합니다.

  3. 다음으로 Ground Truth는 작업자에게 MaxConcurrentTaskCount개의 데이터 세트 객체를 전송합니다. 예를 들어 입력 매니페스트 파일에 2,000개의 입력 데이터 객체가 있고 데이터 객체당 작업자 수를 3으로 설정하고 MaxConcurrentTaskCount를 900으로 설정하면 입력 매니페스트의 첫 번째 900개 데이터 객체가 작업자들에게 전해져 2,700개(900 x 3) 작업이 됩니다. 이는 작업자에게 전송된 최초의 풀 사이즈 객체 세트입니다.

  4. 다음 상황은 생성하는 레이블 지정 작업 유형에 따라 달라집니다. 이 단계에서는 입력 매니페스트 파일에 있거나 스트리밍 레이블 지정 작업에서 Amazon SNS 입력 데이터 소스를 사용하여 전송된 하나 이상의 데이터 세트 객체가 3단계에서 작업자에게 전송된 세트에 포함되지 않았다고 가정합니다.

    • 스트리밍 레이블 지정 작업(Streaming labeling job): 작업자가 사용할 수 있는 총 객체 수가 MaxConcurrentTaskCount와 같은 한 입력 매니페스트 파일에 있고 Amazon SNS를 사용하여 실시간으로 전송하는 나머지 모든 데이터 세트 객체가 Amazon SQS 대기열에 배치됩니다. 작업자가 사용할 수 있는 총 객체 수가 MaxConcurrentTaskCount에서 NumberOfHumanWorkersPerDataObject를 뺀 숫자 이하로 떨어지면 대기열의 새 데이터 객체를 사용하여 NumberOfHumanWorkersPerDataObject 태스크를 생성하여 작업자에게 실시간으로 전송합니다.

    • 비스트리밍 레이블 지정 작업(Non-streaming labeling job): 작업자가 한 세트의 객체에 레이블을 완료하면 최대 MaxConcurrentTaskCount 번까지 NumberOfHumanWorkersPerDataObject개의 새 작업이 작업자에게 전송됩니다. 입력 매니페스트 파일의 모든 데이터 객체에 레이블이 지정될 때까지 이 프로세스가 반복됩니다.

Amazon SQS를 사용하여 스트리밍 레이블 지정 작업으로의 데이터 객체 흐름을 제어할 수 있습니다

스트리밍 레이블 지정 작업을 생성하면 Amazon SQS 대기열이 사용자 계정에 자동으로 생성됩니다. 데이터 객체는 작업자에게 전송된 총 객체 수가 MaxConcurrentTaskCount을/를 초과할 때만 Amazon SQS 대기열에 추가됩니다. 그렇지 않으면 객체가 작업자에게 직접 전송됩니다.

이 대기열을 사용하여 레이블 지정 작업으로의 데이터 객체 흐름을 관리할 수 있습니다. 자세한 내용은 Amazon SQS 대기열을 사용하여 레이블 지정 요청 관리 섹션을 참조하십시오.