데이터 집합에서 누락된 값 찾기 및 채우기 - AWS Glue Studio

데이터 집합에서 누락된 값 찾기 및 채우기

FillMissingValues 변환을 사용하여 데이터 집합에서 누락된 값이 있는 레코드를 찾고 대치에 의해 결정된 값으로 새 필드를 추가할 수 있습니다. 입력 데이터 집합은 누락 값을 결정하는 기계 학습 모델을 훈련하는 데 사용됩니다. 증분 데이터 집합을 사용하는 경우 각 증분 집합은 기계 학습 모델의 훈련 데이터로 사용되므로 결과가 정확하지 않을 수 있습니다.

작업 다이어그램에서 FillMissingValues 변환 노드를 사용하려면

  1. (선택 사항) 시각적 편집기 상단의 도구 모음에서 [변환(Transform)]을 선택한 다음, 필요한 경우 [FillMissingValues]를 선택하여 작업 다이어그램에 새 변환을 추가합니다.

  2. [노드 속성(Node properties)] 탭에서 작업 다이어그램에 노드 이름을 입력합니다. 노드 상위 항목이 아직 선택되지 않은 경우 [노드 상위 항목(Node parents)] 목록에서 변환의 입력 소스로 사용할 노드를 선택합니다.

  3. [변환(Transform)] 탭을 선택합니다.

  4. [데이터 필드(Data field)]에서 누락된 값을 분석할 소스 데이터의 열 또는 필드 이름을 선택합니다.

  5. (선택 사항) [새 필드 이름(New field name)] 필드에 분석된 필드의 예상 대체 값을 보유할 각 레코드에 추가된 필드의 이름을 입력합니다. 분석된 필드에 누락된 값이 없으면 분석된 필드의 값이 새 필드에 복사됩니다.

    새 필드의 이름을 지정하지 않으면 기본 이름은 _filled가 추가된 분석된 열의 이름입니다. 예를 들어 [데이터 필드(Data field)]에 Age를 입력하고 [새 필드 이름(New field name)]에 값을 지정하지 않으면 Age_filled라는 새 필드가 각 레코드에 추가됩니다.

  6. (선택 사항) 변환 노드 속성을 구성한 후 노드 세부 정보 패널에서 [출력 스키마(Output schema)] 탭을 선택하여 데이터에 대해 수정된 스키마를 볼 수 있습니다. 작업의 노드에 대해 이 탭을 처음 선택하면 데이터 액세스를 위해 IAM 역할을 제공하라는 메시지가 나타납니다. [작업 세부 정보(Job details)] 탭에서 IAM 역할을 지정하지 않은 경우 여기에 IAM 역할을 입력하라는 메시지가 나타납니다.

  7. (선택 사항) 노드 속성과 변환 속성을 구성한 후 노드 세부 정보 패널에서 [데이터 미리 보기(Data preview)] 탭을 선택하여 수정된 데이터 집합을 미리 볼 수 있습니다. 작업의 노드에 대해 이 탭을 처음 선택하면 데이터 액세스를 위해 IAM 역할을 제공하라는 메시지가 나타납니다. 이 기능 사용과 관련된 비용이 있으며 IAM 역할을 제공하는 즉시 결제가 시작됩니다.