기계 학습 API - AWS Glue

기계 학습 API

기계 학습 API는 기계 학습 데이터 형식을 설명하며 변환을 생성, 삭제 또는 업데이트하거나 기계 학습 작업 실행을 시작하기 위한 API를 포함합니다.

데이터 유형

TransformParameters 구조

기계 학습 변환과 연결된 알고리즘별 파라미터입니다.

필드
  • TransformType필수: UTF-8 문자열입니다(유효한 값: FIND_MATCHES).

    기계 학습 변환의 유형입니다.

    기계 학습 변환 유형에 대한 자세한 내용은 기계 학습 변환 생성을 참조하십시오.

  • FindMatchesParametersFindMatchesParameters 객체입니다.

    일치 항목 찾기 알고리즘에 대한 파라미터입니다.

EvaluationMetrics 구조

평가 지표는 기계 학습 변환의 예상 품질을 제공합니다.

필드
  • TransformType필수: UTF-8 문자열입니다(유효한 값: FIND_MATCHES).

    기계 학습 변환의 유형입니다.

  • FindMatchesMetricsFindMatchesMetrics 객체입니다.

    일치 항목 찾기 알고리즘에 대한 평가 지표입니다.

MLTransform 구조

기계 학습 변환의 구조입니다.

필드
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환에 대해 생성된 고유 변환 ID입니다. ID는 고유한 것으로 보장되며 변경되지 않습니다.

  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 사용자 정의 이름입니다. 이름은 고유한 것으로 보장되지 않으며 언제든지 변경할 수 있습니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    기계 학습 변환에 대한 사용자 정의된 긴 형식의 설명 텍스트입니다. 설명은 고유한 것으로 보장되지 않으며 언제든지 변경할 수 있습니다.

  • Status – UTF-8 문자열입니다(유효한 값: NOT_READY | READY | DELETING).

    기계 학습 변환의 현재 상태입니다.

  • CreatedOn – 타임스탬프입니다.

    타임스탬프입니다. 이 기계 학습 변환이 생성된 시간과 날짜입니다.

  • LastModifiedOn – 타임스탬프입니다.

    타임스탬프입니다. 이 기계 학습 변환이 수정된 마지막 시점입니다.

  • InputRecordTablesGlueTable 객체의 배열이며 구조는 10개 이하입니다.

    변환에 사용된 AWS Glue 테이블 정의의 목록입니다.

  • ParametersTransformParameters 객체입니다.

    TransformParameters 객체입니다. 파라미터를 통해 기계 학습 변환이 학습하는 데이터 및 다양한 트레이드오프(예: 재현율 대비 귀중함 또는 비용 대비 정확도)에 대한 기본 설정을 지정하여 기계 학습 변환의 동작을 튜닝(사용자 지정)할 수 있습니다.

  • EvaluationMetricsEvaluationMetrics 객체입니다.

    EvaluationMetrics 객체입니다. 평가 지표는 기계 학습 변환의 예상 품질을 제공합니다.

  • LabelCount - 숫자(정수)입니다.

    이 변환에 대해 AWS Glue에서 생성된 레이블 지정 파일에 대한 카운트 식별자입니다. 더 좋은 변환을 만들면 레이블 지정 파일을 반복적으로 다운로드하고 레이블 지정하고 업로드할 수 있습니다.

  • SchemaSchemaColumn 객체의 배열이며 구조는 100개 이하입니다.

    이 변환이 실행할 수 있는 열과 데이터 형식을 나타내는 키-값 페어의 맵입니다. 100열의 상한이 있습니다.

  • Role – UTF-8 문자열입니다.

    필수 권한이 있는 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다. 필요한 권한에는 AWS Glue 리소스에 대한 AWS Glue 서비스 역할 권한과 변환에서 요구하는 Amazon S3 권한 모두가 포함됩니다.

    • 이 역할에는 AWS Glue의 리소스에 대한 액세스 허용을 위한 AWS Glue 서비스 역할 권한이 필요합니다. AWS Glue에 액세스하는 IAM 사용자에게 정책 연결을 참조하세요.

    • 이 역할에는 작업 실행에서 이 변환에 사용되는 Amazon Simple Storage Service(Amazon S3) 소스, 대상, 임시 디렉터리, 스크립트 및 모든 라이브러리에 대한 권한이 필요합니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 값은 이러한 기계 학습 변환과 호환되는 AWS Glue의 버전을 결정합니다. Glue 1.0은 대부분의 고객에게 권장됩니다. 값이 설정되지 않은 경우 Glue 호환성은 Glue 0.9로 기본 설정됩니다. 자세한 내용은 개발자 안내서의 AWS Glue 버전을 참조하세요.

  • MaxCapacity - 숫자(double)입니다.

    이 변환의 태스크 실행에 할당된 AWS Glue 데이터 처리 장치(DPU)의 수입니다. 2~100DPU를 할당할 수 있으며, 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    MaxCapacityNumberOfWorkersWorkerType과 함께 사용할 수 없는 옵션입니다.

    • NumberOfWorkersWorkerType 중 하나가 설정되면 MaxCapacity를 설정할 수 없습니다.

    • MaxCapacity가 설정되면 NumberOfWorkersWorkerType 모두 설정할 수 없습니다.

    • WorkerType이 설정되면 NumberOfWorkers가 필요합니다(반대의 경우도 마찬가지).

    • MaxCapacityNumberOfWorkers는 1 이상이어야 합니다.

    WorkerType 필드를 Standard 이외의 다른 값으로 설정하면 MaxCapacity 필드가 자동으로 설정되고 읽기 전용이 됩니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    이 변환의 작업이 실행될 때 할당되는 미리 정의된 작업자의 유형입니다. Standard, G.1X 또는 G.2X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 64GB 디스크와, 작업자당 실행기 1개를 제공합니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 8vCPU, 32GB 메모리 및 128GB 디스크와, 작업자당 실행기 1개를 제공합니다.

    MaxCapacityNumberOfWorkersWorkerType과 함께 사용할 수 없는 옵션입니다.

    • NumberOfWorkersWorkerType 중 하나가 설정되면 MaxCapacity를 설정할 수 없습니다.

    • MaxCapacity가 설정되면 NumberOfWorkersWorkerType 모두 설정할 수 없습니다.

    • WorkerType이 설정되면 NumberOfWorkers가 필요합니다(반대의 경우도 마찬가지).

    • MaxCapacityNumberOfWorkers는 1 이상이어야 합니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    변환의 작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

    WorkerType이 설정되면 NumberOfWorkers가 필요합니다(반대의 경우도 마찬가지).

  • Timeout – 1 이상의 숫자(정수)입니다.

    기계 학습 변환의 시간 초과(분)입니다.

  • MaxRetries - 숫자(정수)입니다.

    기계 학습 변환의 MLTaskRun이 실패한 후 최대 재시도 횟수입니다.

  • TransformEncryptionTransformEncryption 객체입니다.

    사용자 데이터 액세스에 적용되는 변환의 유휴 시 암호화 설정입니다. 기계 학습 변환에서는 KMS를 사용하여 Amazon S3의 암호화된 사용자 데이터에 액세스할 수 있습니다.

FindMatchesParameters 구조

일치 항목 찾기 변환을 구성하기 위한 파라미터입니다.

필드
  • PrimaryKeyColumnNameSingle-line string pattern과(와) 일치하는 1~1,024바이트 길이의 UTF-8 문자열입니다.

    소스 테이블에서 행을 고유하게 식별하는 열의 이름입니다. 일치하는 레코드를 식별하기 위해 사용됩니다.

  • PrecisionRecallTradeoff – 1.0 이하의 숫자(실수)입니다.

    정밀도와 재현율 간의 균형을 위해 변환을 튜닝할 때 선택하는 값입니다. 값 0.5는 기본 설정 없음, 값 1.0은 순전히 정밀도에 대한 바이어스, 값 0.0은 재현율에 대한 바이어스를 의미합니다. 이 값은 트레이드오프이기 때문에 1.0에 가까운 값을 선택하면 매우 낮은 재현율을 의미하고 0.0에 가까운 값을 선택하면 매우 낮은 정밀도를 나타냅니다.

    정밀도 지표는 모델이 일치를 정확하게 예측하는 빈도를 나타냅니다.

    재현율 지표는 실제 일치에 대해 모델이 일치를 예측하는 빈도를 나타냅니다.

  • AccuracyCostTradeoff – 1.0 이하의 숫자(실수)입니다.

    정확도와 비용 간의 균형을 위해 변환을 튜닝할 때 선택하는 값입니다. 값 0.5는 시스템이 정확도 및 비용 문제의 균형을 유지하고 있음을 의미합니다. 값 1.0은 순전히 정확도에 대한 바이어스를 의미하며 일반적으로 더 높은 비용, 때로는 상당히 더 높은 비용을 나타냅니다. 값 0.0은 순전히 비용에 대한 바이어스를 의미하며 비교적 정확하지 않은 FindMatches 변환, 때로는 용인할 수 없는 수준의 정확도를 나타냅니다.

    정확도는 변환이 참 긍정과 참 부정을 얼마나 잘 찾는지 측정합니다. 정확도를 증가시키려면 더 많은 기계 리소스와 비용이 필요합니다. 하지만 이렇게 하면 재현율도 증가합니다.

    비용은 변환을 실행하는 데 얼마나 많은 컴퓨팅 리소스(따라서 비용)가 사용되는지를 측정합니다.

  • EnforceProvidedLabels – 부울입니다.

    사용자가 제공한 레이블과 일치하는 강제 출력을 켜거나 끄는 값입니다. 값이 True이면 find matches 변환은 제공된 레이블과 일치하도록 출력을 강제합니다. 결과는 일반 융합 결과를 재정의합니다. 값이 False이면 find matches 변환은 제공된 모든 레이블이 존중될 것을 보장하지 않으며 결과는 교육된 모델에 따라 다릅니다.

    이 값을 true로 설정하면 융합 실행 시간이 증가합니다.

FindMatchesMetrics 구조

일치 항목 찾기 알고리즘에 대한 평가 지표입니다. 기계 학습 변환의 품질은 변환을 가져와서 몇 가지 일치를 예측하고 동일한 데이터세트의 알려진 일치 항목과 결과를 비교하여 측정됩니다. 품질 지표는 데이터의 하위 세트를 기반으로 하므로 정밀하지 않습니다.

필드
  • AreaUnderPRCurve – 1.0 이하의 숫자(실수)입니다.

    정밀도/재현율 곡선(AUPRC) 아래 면적은 변환의 전체 품질을 측정하는 단일 숫자이며, 이 숫자는 재현율 대비 정밀도에 대해 수행한 선택과 무관합니다. 값이 높을수록 더 매력적인 재현율 대비 정밀도 트레이드오프가 있음을 나타냅니다.

    자세한 내용은 Wikipedia의 정밀도 및 재현율을 참조하십시오.

  • Precision – 1.0 이하의 숫자(실수)입니다.

    정밀도 지표는 변환이 일치를 정확하게 예측하는 빈도를 나타냅니다. 특히 정밀도는 변환이 총 참 긍정에서 참 긍정을 얼마나 잘 찾는지를 측정합니다.

    자세한 내용은 Wikipedia의 정밀도 및 재현율을 참조하십시오.

  • Recall – 1.0 이하의 숫자(실수)입니다.

    재현율 지표는 실제 일치에 대해 변환이 일치를 예측하는 빈도를 나타냅니다. 특히 재현율은 변환이 소스 데이터의 총 레코드에서 참 긍정을 얼마나 잘 찾는지를 측정합니다.

    자세한 내용은 Wikipedia의 정밀도 및 재현율을 참조하십시오.

  • F1 – 1.0 이하의 숫자(실수)입니다.

    최대 F1 지표는 0~1 범위에서 변환의 정확도를 나타냅니다. 여기서 1은 최상의 정확도입니다.

    자세한 내용은 Wikipedia의 F1 점수를 참조하십시오.

  • ConfusionMatrixConfusionMatrix 객체입니다.

    혼동 행렬은 변환이 무엇을 정확하게 예측하고 있으며 어떤 유형의 오류가 발생하고 있는지를 보여 줍니다.

    자세한 내용은 Wikipedia의 혼동 행렬을 참조하십시오.

  • ColumnImportancesColumnImportance 객체의 배열이며 구조는 100개 이하입니다.

    중요도 내림차순으로 정렬된 열 중요도 지표를 포함하는 ColumnImportance 구조 목록입니다.

ConfusionMatrix 구조

혼동 행렬은 변환이 무엇을 정확하게 예측하고 있으며 어떤 유형의 오류가 발생하고 있는지를 보여 줍니다.

자세한 내용은 Wikipedia의 혼동 행렬을 참조하십시오.

필드
  • NumTruePositives - 숫자(정수)입니다.

    변환에 대한 혼동 행렬에서 변환이 올바르게 찾은 데이터의 일치 항목 수입니다.

  • NumFalsePositives - 숫자(정수)입니다.

    변환에 대한 혼동 행렬에서 변환이 일치 항목으로 잘못 분류한 데이터의 불일치 항목 수입니다.

  • NumTrueNegatives - 숫자(정수)입니다.

    변환에 대한 혼동 행렬에서 변환이 올바르게 거부한 데이터의 일치 항목 수입니다.

  • NumFalseNegatives - 숫자(정수)입니다.

    변환에 대한 혼동 행렬에서 변환이 찾지 못한 데이터의 일치 항목 수입니다.

GlueTable 구조

입력 또는 출력 데이터에 사용되는 AWS Glue Data Catalog의 데이터베이스와 테이블입니다.

필드
  • DatabaseName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    AWS Glue Data Catalog의 데이터베이스 이름입니다.

  • TableName필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    AWS Glue Data Catalog의 테이블 이름입니다.

  • CatalogIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    AWS Glue Data Catalog의 고유 식별자입니다.

  • ConnectionNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    AWS Glue Data Catalog에 대한 연결 이름입니다.

TaskRun 구조

기계 학습 변환과 연결된 샘플링 파라미터입니다.

필드
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환의 고유 식별자입니다.

  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업 실행의 고유 식별자입니다.

  • Status – UTF-8 문자열입니다(유효한 값: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    요청된 작업 실행의 현재 상태입니다.

  • LogGroupName – UTF-8 문자열입니다.

    이 작업 실행과 연결된 보안 로깅을 위한 로그 그룹의 이름입니다.

  • PropertiesTaskRunProperties 객체입니다.

    이 작업 실행과 연결된 구성 속성을 지정합니다.

  • ErrorString – UTF-8 문자열입니다.

    이 작업 실행과 연결된 오류 문자열의 목록입니다.

  • StartedOn – 타임스탬프입니다.

    이 작업 실행이 시작된 날짜와 시간입니다.

  • LastModifiedOn – 타임스탬프입니다.

    요청된 작업 실행이 업데이트된 마지막 시점입니다.

  • CompletedOn – 타임스탬프입니다.

    요청된 작업 실행이 완료된 마지막 시점입니다.

  • ExecutionTime - 숫자(정수)입니다.

    이 작업 실행이 리소스를 사용한 시간(초).입니다.

TransformFilterCriteria 구조

기계 학습 변환을 핕터링하는 데 사용되는 기준입니다.

필드
  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환을 필터링하는 데 사용되는 고유의 변환 이름입니다.

  • TransformType – UTF-8 문자열입니다(유효한 값: FIND_MATCHES).

    기계 학습 변환을 필터링하는 데 사용되는 기계 학습 변환의 유형입니다.

  • Status – UTF-8 문자열입니다(유효한 값: NOT_READY | READY | DELETING).

    마지막으로 알려진 변환 상태를 기준으로 기계 학습 변환 목록을 필터링합니다(변환을 사용할 수 있는지 여부를 나타냄). "NOT_READY", "READY" 또는 "DELETING" 중 하나입니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 값은 이러한 기계 학습 변환과 호환되는 AWS Glue의 버전을 결정합니다. Glue 1.0은 대부분의 고객에게 권장됩니다. 값이 설정되지 않은 경우 Glue 호환성은 Glue 0.9로 기본 설정됩니다. 자세한 내용은 개발자 안내서의 AWS Glue 버전을 참조하세요.

  • CreatedBefore – 타임스탬프입니다.

    그 이전에 변환이 생성된 시간과 날짜입니다.

  • CreatedAfter – 타임스탬프입니다.

    그 이후에 변환이 생성된 시간과 날짜입니다.

  • LastModifiedBefore – 타임스탬프입니다.

    이 날짜 이전에 마지막으로 수정된 변환에서 필터링합니다.

  • LastModifiedAfter – 타임스탬프입니다.

    이 날짜 이후에 마지막으로 수정된 변환에서 필터링합니다.

  • SchemaSchemaColumn 객체의 배열이며 구조는 100개 이하입니다.

    특정 스키마를 사용하여 데이터세트에서 필터링합니다. Map<Column, Type> 객체는 이 변환이 허용하는 스키마를 나타내는 키-값 페어의 배열입니다. 여기서 Column은 열의 이름이고 Type은 정수 또는 문자열과 같은 데이터 형식입니다. 100열의 상한이 있습니다.

TransformSortCriteria 구조

기계 학습 변환과 연결된 정렬 기준입니다.

필드
  • Column필수: UTF-8 문자열입니다(유효한 값: NAME | TRANSFORM_TYPE | STATUS | CREATED | LAST_MODIFIED).

    기계 학습 변환과 연결된 정렬 기준에 사용할 열입니다.

  • SortDirection필수: UTF-8 문자열입니다(유효한 값: DESCENDING | ASCENDING).

    기계 학습 변환과 연결된 정렬 기준에 사용할 정렬 방향입니다.

TaskRunFilterCriteria 구조

기계 학습 변환에 대한 작업 실행을 필터링하는 데 사용되는 기준입니다.

필드
  • TaskRunType – UTF-8 문자열입니다(유효한 값: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    작업 실행의 유형입니다.

  • Status – UTF-8 문자열입니다(유효한 값: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    작업 실행의 현재 상태입니다.

  • StartedBefore – 타임스탬프입니다.

    이 날짜 이전에 시작된 작업 실행에서 필터링합니다.

  • StartedAfter – 타임스탬프입니다.

    이 날짜 이후에 시작된 작업 실행에서 필터링합니다.

TaskRunSortCriteria 구조

기계 학습 변환에 대한 작업 실행 목록을 정렬하는 데 사용되는 정렬 기준입니다.

필드
  • Column필수: UTF-8 문자열입니다(유효한 값: TASK_RUN_TYPE | STATUS | STARTED).

    기계 학습 변환에 대한 작업 실행 목록을 정렬하는 데 사용할 열입니다.

  • SortDirection필수: UTF-8 문자열입니다(유효한 값: DESCENDING | ASCENDING).

    기계 학습 변환에 대한 작업 실행 목록을 정렬하는 데 사용할 정렬 방향입니다.

TaskRunProperties 구조

작업 실행에 대한 구성 속성입니다.

필드
  • TaskType – UTF-8 문자열입니다(유효한 값: EVALUATION | LABELING_SET_GENERATION | IMPORT_LABELS | EXPORT_LABELS | FIND_MATCHES).

    작업 실행의 유형입니다.

  • ImportLabelsTaskRunPropertiesImportLabelsTaskRunProperties 객체입니다.

    가져오기 레이블 작업 실행에 대한 구성 속성입니다.

  • ExportLabelsTaskRunPropertiesExportLabelsTaskRunProperties 객체입니다.

    내보내기 레이블 작업 실행에 대한 구성 속성입니다.

  • LabelingSetGenerationTaskRunPropertiesLabelingSetGenerationTaskRunProperties 객체입니다.

    레이블 지정 세트 생성 작업 실행에 대한 구성 속성입니다.

  • FindMatchesTaskRunPropertiesFindMatchesTaskRunProperties 객체입니다.

    일치 항목 찾기 작업 실행에 대한 구성 속성입니다.

FindMatchesTaskRunProperties 구조

일치 항목 찾기 작업 실행에 대한 구성 속성을 지정합니다.

필드
  • JobIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    일치 항목 찾기 작업 실행의 작업 ID입니다.

  • JobNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    일치 항목 찾기 작업 실행에 대한 작업에 할당된 이름입니다

  • JobRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    일치 항목 찾기 작업 실행의 작업 실행 ID입니다.

ImportLabelsTaskRunProperties 구조

가져오기 레이블 작업 실행에 대한 구성 속성을 지정합니다.

필드
  • InputS3Path – UTF-8 문자열입니다.

    레이블을 가져올 Amazon Simple Storage Service(Amazon S3) 경로입니다.

  • Replace – 부울입니다.

    기존 레이블을 덮어쓸지 여부를 표시합니다.

ExportLabelsTaskRunProperties 구조

내보내기 레이블 작업 실행에 대한 구성 속성을 지정합니다.

필드
  • OutputS3Path – UTF-8 문자열입니다.

    레이블을 내보낼 Amazon Simple Storage Service(Amazon S3) 경로입니다.

LabelingSetGenerationTaskRunProperties 구조

레이블 지정 세트 생성 작업 실행에 대한 구성 속성을 지정합니다.

필드
  • OutputS3Path – UTF-8 문자열입니다.

    레이블 지정 세트를 생성할 Amazon Simple Storage Service(Amazon S3) 경로입니다.

SchemaColumn 구조

이 변환이 실행할 수 있는 열과 데이터 형식을 나타내는 키-값 페어입니다. MLTransformSchema 파라미터에는 이러한 구조가 최대 100개까지 포함될 수 있습니다.

필드
  • NameSingle-line string pattern과(와) 일치하는 1~1,024바이트 길이의 UTF-8 문자열입니다.

    열의 이름입니다.

  • DataTypeSingle-line string pattern과(와) 일치하는 131,072바이트 이하 길이의 UTF-8 문자열입니다.

    열에 있는 데이터의 형식입니다.

TransformEncryption 구조

사용자 데이터 액세스에 적용되는 변환의 유휴 시 암호화 설정입니다. 기계 학습 변환에서는 KMS를 사용하여 Amazon S3의 암호화된 사용자 데이터에 액세스할 수 있습니다.

또한 가져온 레이블 및 교육된 변환은 이제 고객이 제공한 KMS 키를 사용하여 암호화할 수 있습니다.

필드
  • MlUserDataEncryptionMLUserDataEncryption 객체입니다.

    MLUserDataEncryption 객체는 암호화 모드 및 고객 제공 KMS 키 ID를 포함합니다.

  • TaskRunSecurityConfigurationNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    보안 구성의 이름입니다.

MLUserDataEncryption 구조

사용자 데이터 액세스에 적용되는 변환의 유휴 시 암호화 설정입니다.

필드
  • MlUserDataEncryptionMode필수: UTF-8 문자열입니다(유효한 값: DISABLED | SSE-KMS="SSEKMS").

    사용자 데이터에 적용되는 암호화 모드입니다. 유효한 값은 다음과 같습니다.

    • DISABLED: 암호화가 비활성화됨

    • SSEKMS: Amazon S3에 저장된 사용자 데이터에 대해 AWS Key Management Service(SSE-KMS) 와 서버 측 암호화를 사용합니다.

  • KmsKeyIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    고객이 제공한 KMS 키의 ID입니다.

ColumnImportance 구조

열에 대한 열 이름 및 열 중요도 점수를 포함하는 구조입니다.

열 중요도는 레코드에서 다른 열보다 더 중요한 열을 식별하여 열이 모델에 어떻게 기여하는지 이해하는 데 도움이 됩니다.

필드
  • ColumnNameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    열의 이름입니다.

  • Importance – 1.0 이하의 숫자(실수)입니다.

    열에 대한 열 중요도 점수(10진수)입니다.

작업

CreateMLTransform 작업(Python: create_ml_transform)

AWS Glue 기계 학습 변환을 생성합니다. 이 작업은 변환과 변환을 교육하는 데 필요한 모든 파라미터를 생성합니다.

데이터 중복 제거에 기계 학습 변환(예: FindMatches 변환)을 사용하는 프로세스의 첫 번째 단계로 이 작업을 호출합니다. 알고리즘에 사용할 파라미터 외에도 선택 사항인 Description을 제공할 수 있습니다.

데이터에서 학습하고 고품질 기계 학습 변환을 생성하는 과정의 일부로 AWS Glue가 자동으로 실행하는 태스크에 대한 특정 파라미터도 지정해야 합니다. 이러한 파라미터에는 Role과 선택 사항으로 AllocatedCapacity, TimeoutMaxRetries가 포함됩니다. 자세한 내용은 작업을 참조하십시오.

요청
  • Name필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환을 생성할 때 변환에 부여한 고유 이름입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    정의하고 있는 기계 학습 변환에 대한 설명입니다. 기본값은 빈 문자열입니다.

  • InputRecordTables필수(Required): GlueTable 객체의 배열이며 구조는 10개 이하입니다.

    변환에 사용된 AWS Glue 테이블 정의의 목록입니다.

  • Parameters필수(Required): TransformParameters 객체입니다.

    사용된 변환 유형에 특정한 알고리즘 파라미터입니다. 조건부로 변환 유형에 따라 다릅니다.

  • Role필수(Required): UTF-8 문자열입니다.

    필수 권한이 있는 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다. 필요한 권한에는 AWS Glue 리소스에 대한 AWS Glue 서비스 역할 권한과 변환에서 요구하는 Amazon S3 권한 모두가 포함됩니다.

    • 이 역할에는 AWS Glue의 리소스에 대한 액세스 허용을 위한 AWS Glue 서비스 역할 권한이 필요합니다. AWS Glue에 액세스하는 IAM 사용자에게 정책 연결을 참조하세요.

    • 이 역할에는 작업 실행에서 이 변환에 사용되는 Amazon Simple Storage Service(Amazon S3) 소스, 대상, 임시 디렉터리, 스크립트 및 모든 라이브러리에 대한 권한이 필요합니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 값은 이러한 기계 학습 변환과 호환되는 AWS Glue의 버전을 결정합니다. Glue 1.0은 대부분의 고객에게 권장됩니다. 값이 설정되지 않은 경우 Glue 호환성은 Glue 0.9로 기본 설정됩니다. 자세한 내용은 개발자 안내서의 AWS Glue 버전을 참조하세요.

  • MaxCapacity - 숫자(double)입니다.

    이 변환의 태스크 실행에 할당된 AWS Glue 데이터 처리 장치(DPU)의 수입니다. 2~100DPU를 할당할 수 있으며, 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    MaxCapacityNumberOfWorkersWorkerType과 함께 사용할 수 없는 옵션입니다.

    • NumberOfWorkersWorkerType 중 하나가 설정되면 MaxCapacity를 설정할 수 없습니다.

    • MaxCapacity가 설정되면 NumberOfWorkersWorkerType 모두 설정할 수 없습니다.

    • WorkerType이 설정되면 NumberOfWorkers가 필요합니다(반대의 경우도 마찬가지).

    • MaxCapacityNumberOfWorkers는 1 이상이어야 합니다.

    WorkerType 필드를 Standard 이외의 다른 값으로 설정하면 MaxCapacity 필드가 자동으로 설정되고 읽기 전용이 됩니다.

    WorkerType 필드를 Standard 이외의 다른 값으로 설정하면 MaxCapacity 필드가 자동으로 설정되고 읽기 전용이 됩니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    이 작업이 실행될 때 할당되는 미리 정의된 작업자의 유형입니다. Standard, G.1X 또는 G.2X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 64GB 디스크와, 작업자당 실행기 1개를 제공합니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 8vCPU, 32GB 메모리 및 128GB 디스크와, 작업자당 실행기 1개를 제공합니다.

    MaxCapacityNumberOfWorkersWorkerType과 함께 사용할 수 없는 옵션입니다.

    • NumberOfWorkersWorkerType 중 하나가 설정되면 MaxCapacity를 설정할 수 없습니다.

    • MaxCapacity가 설정되면 NumberOfWorkersWorkerType 모두 설정할 수 없습니다.

    • WorkerType이 설정되면 NumberOfWorkers가 필요합니다(반대의 경우도 마찬가지).

    • MaxCapacityNumberOfWorkers는 1 이상이어야 합니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    이 작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

    WorkerType이 설정되면 NumberOfWorkers가 필요합니다(반대의 경우도 마찬가지).

  • Timeout – 1 이상의 숫자(정수)입니다.

    이 변환에 대한 작업 실행의 제한 시간(분)입니다. 이 값은 이 변환에 대한 작업 실행이 종료되고 TIMEOUT 상태로 전환되기 전에 리소스를 사용할 수 있는 최대 시간입니다. 기본값은 2,880 분(48 시간)입니다.

  • MaxRetries - 숫자(정수)입니다.

    작업 실행이 실패한 후 이 변환에 대한 작업을 재시도할 최대 횟수입니다.

  • Tags – 50개 이하의 페어로 구성된 키-값 페어의 맵 배열입니다.

    각 키는 길이가 1~128바이트인 UTF-8 문자열입니다.

    각 값은 256 바이트 이하 길이의 UTF-8 문자열입니다.

    이러한 기계 학습 변환에서 사용할 태그입니다. 태그를 사용하여 기계 학습 변환에 대한 액세스를 제한할 수 있습니다. AWS Glue의 태그에 대한 자세한 내용은 개발자 안내서의 AWS Glue의 AWS 태그를 참조하세요.

  • TransformEncryptionTransformEncryption 객체입니다.

    사용자 데이터 액세스에 적용되는 변환의 유휴 시 암호화 설정입니다. 기계 학습 변환에서는 KMS를 사용하여 Amazon S3의 암호화된 사용자 데이터에 액세스할 수 있습니다.

응답
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환에 대해 생성되는 고유 식별자입니다.

오류
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

  • ResourceNumberLimitExceededException

  • IdempotentParameterMismatchException

UpdateMLTransform 작업(Python: update_ml_transform)

기존 기계 학습 변환을 업데이트합니다. 더 좋은 결과를 달성하도록 알고리즘 파라미터를 튜닝하려면 이 작업을 호출합니다.

이 작업을 호출한 후, StartMLEvaluationTaskRun 작업을 호출하여 새로운 파라미터가 목표를 얼마나 잘 달성했는지에 액세스할 수 있습니다(예: 기계 학습 변환의 품질 개선 또는 비용 효과 향상).

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환을 생성할 때 생성된 고유 식별자입니다.

  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    생성할 때 변환에 부여한 고유 이름입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    변환에 대한 설명입니다. 기본값은 빈 문자열입니다.

  • ParametersTransformParameters 객체입니다.

    사용된 변환 유형(알고리즘)에 특정한 구성 파라미터입니다. 조건부로 변환 유형에 따라 다릅니다.

  • Role – UTF-8 문자열입니다.

    필수 권한이 있는 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 값은 이러한 기계 학습 변환과 호환되는 AWS Glue의 버전을 결정합니다. Glue 1.0은 대부분의 고객에게 권장됩니다. 값이 설정되지 않은 경우 Glue 호환성은 Glue 0.9로 기본 설정됩니다. 자세한 내용은 개발자 안내서의 AWS Glue 버전을 참조하세요.

  • MaxCapacity - 숫자(double)입니다.

    이 변환의 태스크 실행에 할당된 AWS Glue 데이터 처리 장치(DPU)의 수입니다. 2~100DPU를 할당할 수 있으며, 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    WorkerType 필드를 Standard 이외의 다른 값으로 설정하면 MaxCapacity 필드가 자동으로 설정되고 읽기 전용이 됩니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    이 작업이 실행될 때 할당되는 미리 정의된 작업자의 유형입니다. Standard, G.1X 또는 G.2X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 64GB 디스크와, 작업자당 실행기 1개를 제공합니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 8vCPU, 32GB 메모리 및 128GB 디스크와, 작업자당 실행기 1개를 제공합니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    이 작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

  • Timeout – 1 이상의 숫자(정수)입니다.

    이 변환에 대한 작업 실행의 제한 시간(분)입니다. 이 값은 이 변환에 대한 작업 실행이 종료되고 TIMEOUT 상태로 전환되기 전에 리소스를 사용할 수 있는 최대 시간입니다. 기본값은 2,880 분(48 시간)입니다.

  • MaxRetries - 숫자(정수)입니다.

    작업 실행이 실패한 후 이 변환에 대한 작업을 재시도할 최대 횟수입니다.

응답
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    업데이트된 변환의 고유 식별자입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • AccessDeniedException

DeleteMLTransform 작업(Python: delete_ml_transform)

AWS Glue 기계 학습 변환을 삭제합니다. 기계 학습 변환은 기계 학습을 통해 사람이 제공한 사례에서 학습하여 수행할 변환에 대한 세부 정보를 학습하는 특수한 유형의 변환입니다. 그런 다음 이러한 변환은 AWS Glue에 의해 저장됩니다. 변환이 더 이상 필요하지 않으면 DeleteMLTransforms를 호출하여 변환을 삭제할 수 있습니다. 하지만 삭제된 변환을 여전히 참조하는 AWS Glue 작업은 더 이상 성공하지 못합니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    삭제할 변환의 고유 식별자입니다.

응답
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    삭제된 변환의 고유 식별자입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransform 작업(Python: get_ml_transform)

AWS Glue 기계 학습 변환 아티팩트와 모든 해당 메타데이터를 가져옵니다. 기계 학습 변환은 기계 학습을 통해 사람이 제공한 사례에서 학습하여 수행할 변환에 대한 세부 정보를 학습하는 특수한 유형의 변환입니다. 그런 다음 이러한 변환은 AWS Glue에 의해 저장됩니다. GetMLTransform을 호출하여 해당 메타데이터를 검색할 수 있습니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환을 생성할 때 생성된 변환의 고유 식별자입니다.

응답
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환을 생성할 때 생성된 변환의 고유 식별자입니다.

  • NameSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    변환을 생성할 때 변환에 지정된 고유 이름입니다.

  • DescriptionURI address multi-line string pattern과(와) 일치하는 2,048바이트 이하 길이의 설명 문자열입니다.

    변환에 대한 설명입니다.

  • Status – UTF-8 문자열입니다(유효한 값: NOT_READY | READY | DELETING).

    변환의 마지막 알려진 상태입니다(변환을 사용할 수 있는지 여부를 나타냄). "NOT_READY", "READY" 또는 "DELETING" 중 하나입니다.

  • CreatedOn – 타임스탬프입니다.

    변환이 생성된 날짜와 시간입니다.

  • LastModifiedOn – 타임스탬프입니다.

    변환이 수정된 날짜와 시간입니다.

  • InputRecordTablesGlueTable 객체의 배열이며 구조는 10개 이하입니다.

    변환에 사용된 AWS Glue 테이블 정의의 목록입니다.

  • ParametersTransformParameters 객체입니다.

    사용된 알고리즘에 특정한 구성 파라미터입니다.

  • EvaluationMetricsEvaluationMetrics 객체입니다.

    최신 평가 지표입니다.

  • LabelCount - 숫자(정수)입니다.

    이 변환에 사용 가능한 레이블 수입니다.

  • SchemaSchemaColumn 객체의 배열이며 구조는 100개 이하입니다.

    이 변환이 허용하는 스키마를 나타내는 Map<Column, Type> 객체입니다. 100열의 상한이 있습니다.

  • Role – UTF-8 문자열입니다.

    필수 권한이 있는 IAM 역할의 이름 또는 Amazon 리소스 이름(ARN)입니다.

  • GlueVersionCustom string pattern #15과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 값은 이러한 기계 학습 변환과 호환되는 AWS Glue의 버전을 결정합니다. Glue 1.0은 대부분의 고객에게 권장됩니다. 값이 설정되지 않은 경우 Glue 호환성은 Glue 0.9로 기본 설정됩니다. 자세한 내용은 개발자 안내서의 AWS Glue 버전을 참조하세요.

  • MaxCapacity - 숫자(double)입니다.

    이 변환의 태스크 실행에 할당된 AWS Glue 데이터 처리 장치(DPU)의 수입니다. 2~100DPU를 할당할 수 있으며, 기본값은 10입니다. DPU는 4 vCPU의 컴퓨팅 파워와 16GB 메모리로 구성된 프로세싱 파워의 상대적 측정값입니다. 자세한 내용은 AWS Glue 요금 페이지를 참조하십시오.

    WorkerType 필드를 Standard 이외의 다른 값으로 설정하면 MaxCapacity 필드가 자동으로 설정되고 읽기 전용이 됩니다.

  • WorkerType – UTF-8 문자열입니다(유효한 값: Standard="" | G.1X="" | G.2X="" | G.025X="").

    이 작업이 실행될 때 할당되는 미리 정의된 작업자의 유형입니다. Standard, G.1X 또는 G.2X 값을 허용합니다.

    • Standard 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 50GB 디스크와, 작업자당 실행기 2개를 제공합니다.

    • G.1X 작업자 유형의 경우, 각 작업자가 4vCPU, 16GB 메모리 및 64GB 디스크와, 작업자당 실행기 1개를 제공합니다.

    • G.2X 작업자 유형의 경우, 각 작업자가 8vCPU, 32GB 메모리 및 128GB 디스크와, 작업자당 실행기 1개를 제공합니다.

  • NumberOfWorkers - 숫자(정수)입니다.

    이 작업이 실행될 때 할당되는 정의된 workerType의 작업자 수입니다.

  • Timeout – 1 이상의 숫자(정수)입니다.

    이 변환에 대한 작업 실행의 제한 시간(분)입니다. 이 값은 이 변환에 대한 작업 실행이 종료되고 TIMEOUT 상태로 전환되기 전에 리소스를 사용할 수 있는 최대 시간입니다. 기본값은 2,880 분(48 시간)입니다.

  • MaxRetries - 숫자(정수)입니다.

    작업 실행이 실패한 후 이 변환에 대한 작업을 재시도할 최대 횟수입니다.

  • TransformEncryptionTransformEncryption 객체입니다.

    사용자 데이터 액세스에 적용되는 변환의 유휴 시 암호화 설정입니다. 기계 학습 변환에서는 KMS를 사용하여 Amazon S3의 암호화된 사용자 데이터에 액세스할 수 있습니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTransforms 작업(Python: get_ml_transforms)

기존 AWS Glue 기계 학습 변환의 정렬 가능하고 필터링 가능한 목록을 가져옵니다. 기계 학습 변환은 기계 학습을 통해 사람이 제공한 사례에서 학습하여 수행할 변환에 대한 세부 정보를 학습하는 특수한 유형의 변환입니다. 그런 다음 이러한 변환은 AWS Glue에 의해 저장되며, GetMLTransforms를 호출하여 해당 메타데이터를 검색할 수 있습니다.

요청
  • NextToken – UTF-8 문자열입니다.

    결과를 오프셋하기 위한 페이지 매김 토큰입니다.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 최대 결과 수입니다.

  • FilterTransformFilterCriteria 객체입니다.

    변환 필터링 기준입니다.

  • SortTransformSortCriteria 객체입니다.

    정렬 기준입니다.

응답
  • Transforms필수(Required): MLTransform 객체의 배열입니다.

    기계 학습 변환의 목록입니다.

  • NextToken – UTF-8 문자열입니다.

    추가 결과를 사용할 수 있는 경우 페이지 매김 토큰입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

ListMLTransforms 작업(Python: list_ml_transforms)

이 AWS 계정에 있는 기존의 AWS Glue 기계 학습 변환이나 지정된 태그가 있는 리소스에 대한 정렬 및 필터링 가능한 목록을 검색합니다. 이 작업을 수행하면 응답의 필터로 사용할 수 있는 Tags 필드 옵션이 검색되기 때문에 태그가 지정된 리소스를 하나의 그룹으로 검색할 수 있습니다. 태그 필터링을 사용하기로 선택하면 태그가 포함된 리소스만 검색됩니다.

요청
  • NextToken – UTF-8 문자열입니다.

    이것이 지속적인 요청이라면 지속적인 토큰입니다.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 목록의 최대 크기.

  • FilterTransformFilterCriteria 객체입니다.

    기계 학습 변환을 핕터링하는 데 사용되는 TransformFilterCriteria입니다.

  • SortTransformSortCriteria 객체입니다.

    기계 학습 변환을 정렬하는 데 사용되는 TransformSortCriteria입니다.

  • Tags – 50개 이하의 페어로 구성된 키-값 페어의 맵 배열입니다.

    각 키는 길이가 1~128바이트인 UTF-8 문자열입니다.

    각 값은 256 바이트 이하 길이의 UTF-8 문자열입니다.

    이렇게 태그가 지정된 리소스만 반환하도록 지정합니다.

응답
  • TransformIds필수(Required): UTF-8 문자열의 배열입니다.

    계정의 모든 기계 학습 변환이나 태그가 지정된 기계 학습의 식별자입니다.

  • NextToken – UTF-8 문자열입니다.

    반환된 목록이 사용가능한 마지막 지표를 포함하지 경우의 연속 토큰입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartMLEvaluationTaskRun 작업(Python: start_ml_evaluation_task_run)

변환 품질을 예상하기 위한 작업을 시작합니다.

레이블 집합을 truth의 사례로 제공하면 AWS Glue 기계 학습은 이러한 사례 중 일부를 사용하여 해당 사례에서 학습합니다. 나머지 레이블은 품질을 예상하기 위한 테스트로 사용됩니다.

실행의 고유 식별자를 반환합니다. GetMLTaskRun을 호출하여 EvaluationTaskRun 통계에 대한 자세한 정보를 가져올 수 있습니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

응답
  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 실행과 연결된 고유 식별자입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

  • MLTransformNotReadyException

StartMLLabelingSetGenerationTaskRun 작업(Python: start_ml_labeling_set_generation_task_run)

레이블 세트를 생성하고 레이블을 지정하여 변환의 품질을 개선하기 위해 기계 학습 변환에 대한 활성 학습 워크플로우를 시작합니다.

StartMLLabelingSetGenerationTaskRun이 완료되면 AWS Glue는 "레이블 지정 집합" 또는 사람이 답변할 질문 집합을 생성합니다.

FindMatches 변환의 경우 이러한 질문은 "일치하는 레코드로 완전히 구성된 그룹으로 이러한 행을 함께 그룹화하는 올바른 방법은 무엇입니까?"와 같은 형식입니다.

레이블 지정 프로세스가 완료된 후에는 StartImportLabelsTaskRun을 호출하여 레이블을 업로드할 수 있습니다. StartImportLabelsTaskRun이 완료된 후에는 기계 학습 변환의 모든 향후 실행이 새롭고 개선된 레이블을 사용하며 더 높은 품질의 변환을 수행합니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • OutputS3Path필수(Required): UTF-8 문자열입니다.

    레이블 지정 세트를 생성하는 Amazon Simple Storage Service(Amazon S3) 경로입니다.

응답
  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 작업 실행과 연결된 고유의 실행 식별자입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • ConcurrentRunsExceededException

GetMLTaskRun 작업(Python: get_ml_task_run)

기계 학습 변환의 특정 작업 실행에 대한 세부 사항을 가져옵니다. 기계 학습 태스크 실행은 다양한 기계 학습 워크플로의 일부로 AWS Glue가 자동으로 실행하는 비동기 태스크입니다. TaskRunID 및 해당 상위 변환의 TransformID와 함께 GetMLTaskRun을 호출하여 모든 작업 실행의 통계를 확인할 수 있습니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • TaskRunId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    작업 실행의 고유 식별자입니다.

응답
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    작업 실행의 고유 식별자입니다.

  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    이 실행과 연결된 고유의 실행 식별자입니다.

  • Status – UTF-8 문자열입니다(유효한 값: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    이 작업 실행의 상태입니다.

  • LogGroupName – UTF-8 문자열입니다.

    작업 실행과 연결된 로그 그룹의 이름입니다.

  • PropertiesTaskRunProperties 객체입니다.

    작업 실행과 연결된 속성의 목록입니다.

  • ErrorString – UTF-8 문자열입니다.

    작업 실행과 연결된 오류 문자열입니다.

  • StartedOn – 타임스탬프입니다.

    이 작업 실행이 시작된 날짜와 시간입니다.

  • LastModifiedOn – 타임스탬프입니다.

    이 작업 실행이 마지막으로 수정된 날짜와 시간입니다.

  • CompletedOn – 타임스탬프입니다.

    이 작업 실행이 완료된 날짜와 시간입니다.

  • ExecutionTime - 숫자(정수)입니다.

    이 작업 실행이 리소스를 사용한 시간(초).입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

GetMLTaskRuns 작업(Python: get_ml_task_runs)

기계 학습 변환에 대한 실행 목록을 가져옵니다. 기계 학습 태스크 실행은 다양한 기계 학습 워크플로의 일부로 AWS Glue가 자동으로 실행하는 비동기 태스크입니다. 이 단원에 기록된 해당 상위 변환의 TransformID 및 기타 선택적 파라미터와 함께 GetMLTaskRuns를 호출하여 정렬 가능하고 필터링 가능한 기계 학습 작업 실행 목록을 가져올 수 있습니다.

이 작업은 기록 실행 목록을 반환하며 페이지를 매겨야 합니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • NextToken – UTF-8 문자열입니다.

    결과의 페이지 매김에 대한 토큰입니다. 기본 값은 비어 있음입니다.

  • MaxResults – 1~1,000의 숫자(정수)입니다.

    반환할 최대 결과 수입니다.

  • FilterTaskRunFilterCriteria 객체입니다.

    작업 실행에 대한 TaskRunFilterCriteria 구조의 필터 기준입니다.

  • SortTaskRunSortCriteria 객체입니다.

    작업 실행에 대한 TaskRunSortCriteria 구조의 정렬 기준입니다.

응답
  • TaskRunsTaskRun 객체의 배열입니다.

    변환과 연결된 작업 실행의 목록입니다.

  • NextToken – UTF-8 문자열입니다.

    추가 결과를 사용할 수 있는 경우 페이지 매김 토큰입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

CancelMLTaskRun 작업(Python: cancel_ml_task_run)

작업 실행을 취소(중지)합니다. 기계 학습 태스크 실행은 다양한 기계 학습 워크플로의 일부로 AWS Glue가 자동으로 실행하는 비동기 태스크입니다. 작업 실행의 상위 변환의 TransformID 및 작업 실행의 TaskRunId와 함께 CancelMLTaskRun을 호출하여 언제든지 기계 학습 작업 실행을 취소할 수 있습니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • TaskRunId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    작업 실행의 고유 식별자입니다.

응답
  • TransformIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    작업 실행의 고유 식별자입니다.

  • Status – UTF-8 문자열입니다(유효한 값: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT).

    이 실행의 상태입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartExportLabelsTaskRun 작업(Python: start_export_labels_task_run)

특정 변환에 대해 레이블 지정된 모든 데이터를 내보내기 위한 비동기 작업을 시작합니다. 이 작업은 일반적인 활성 학습 워크플로우의 일부가 아닌 유일한 레이블 관련 API 호출입니다. 이전에 truth로 제출한 레이블을 제거하거나 변경하려는 경우와 같이 모든 기존 레이블을 동시에 작업하려는 경우에 일반적으로 StartExportLabelsTaskRun을 사용합니다. 이 API 작업은 레이블을 내보내려고 하는 TransformId 및 레이블을 내보낼 Amazon Simple Storage Service(Amazon S3) 경로를 허용합니다. 이 작업은 TaskRunId를 반환합니다. GetMLTaskRun API를 호출하여 작업 실행의 상태를 확인할 수 있습니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • OutputS3Path필수(Required): UTF-8 문자열입니다.

    레이블을 내보내는 Amazon S3 경로입니다.

응답
  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    작업 실행의 고유 식별자입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

StartImportLabelsTaskRun 작업(Python: start_import_labels_task_run)

기계 학습 변환을 교육하고 품질을 개선하는 데 사용할 추가 레이블(truth의 사례)을 제공할 수 있습니다. 일반적으로 이 API 작업은 StartMLLabelingSetGenerationTaskRun 호출로 시작하고 결국 기계 학습 변환의 품질을 개선하는 활성 학습 워크플로우의 일부로 사용됩니다.

StartMLLabelingSetGenerationTaskRun이 완료되면 AWS Glue 기계 학습은 사람이 답변할 일련의 질문을 생성합니다. (기계 학습 워크플로우에서는 이러한 질문에 답변하는 것을 흔히 ‘레이블 지정’이라고 합니다). FindMatches 변환의 경우 이러한 질문은 "일치하는 레코드로 완전히 구성된 그룹으로 이러한 행을 함께 그룹화하는 올바른 방법은 무엇입니까?"와 같은 형식입니다. 레이블 지정 프로세스가 완료된 후 사용자는 StartImportLabelsTaskRun을 호출하여 답변/레이블을 업로드할 수 있습니다. StartImportLabelsTaskRun이 완료된 후에는 기계 학습 변환의 모든 향후 실행이 새롭고 개선된 레이블을 사용하며 더 높은 품질의 변환을 수행합니다.

기본적으로 Replace를 true로 설정하지 않는 한 StartMLLabelingSetGenerationTaskRun은 업로드하는 모든 레이블에서 지속적으로 학습하고 업로드하는 모든 레이블을 결합합니다. Replace를 true로 설정하면 StartImportLabelsTaskRun은 이전에 업로드한 모든 레이블을 삭제하고 잊어버리며 업로드하는 정확한 세트에서만 학습합니다. 레이블 바꾸기는 잘못된 레이블을 이전에 업로드한 것을 인식하고 해당 레이블이 변환 품질에 부정적인 영향을 미치고 있다고 확신하는 경우에 유용할 수 있습니다.

GetMLTaskRun 작업을 호출하여 작업 실행의 상태를 확인할 수 있습니다.

요청
  • TransformId필수(Required): Single-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    기계 학습 변환의 고유 식별자입니다.

  • InputS3Path필수(Required): UTF-8 문자열입니다.

    레이블을 가져올 Amazon Simple Storage Service(Amazon S3) 경로입니다.

  • ReplaceAllLabels – 부울입니다.

    기존 레이블을 덮어쓸지 여부를 표시합니다.

응답
  • TaskRunIdSingle-line string pattern과(와) 일치하는 1~255바이트 길이의 UTF-8 문자열입니다.

    작업 실행의 고유 식별자입니다.

오류
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InternalServiceException