데이터 흐름 만들기 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터 흐름 만들기

SageMaker Canvas의 데이터 랭글러 흐름 또는 데이터 흐름을 사용하여 데이터 준비 파이프라인을 만들고 수정하세요. 데이터 흐름에서 사용하는 데이터세트, 변환, 분석은 단계로 표시됩니다.

데이터를 데이터 흐름으로 가져오기

5GB보다 큰 데이터셋에는 데이터 랭글러를 사용하는 것이 좋습니다. 시작하려면 데이터를 데이터 흐름으로 가져오세요.

다음 절차를 사용하여 데이터를 데이터 흐름으로 가져올 수 있습니다.

데이터를 데이터 흐름으로 가져오려면
  1. SageMaker 캔버스를 엽니다.

  2. 왼쪽 탐색 창에서 데이터 랭글러를 선택합니다.

  3. [가져오기 및 준비] 를 선택합니다.

  4. 드롭다운 메뉴에서 표 형식 또는 이미지를 선택합니다.

  5. 데이터 원본 선택에서 데이터 원본을 선택하고 가져오려는 데이터를 선택합니다. 최대 30개의 파일 또는 1개의 폴더를 선택할 수 있습니다. 이미 Canvas로 가져온 데이터셋이 있는 경우 Canvas 데이터세트를 소스로 선택하세요. 그렇지 않으면 Amazon S3 또는 Snowflake와 같은 데이터 소스에 연결하여 데이터를 탐색하십시오. 데이터 소스에 연결하거나 데이터를 가져오는 방법에 대한 자세한 내용은 다음 페이지를 참조하십시오.

  6. 가져오려는 데이터를 선택한 후 다음을 선택합니다.

  7. (선택 사항) 표 형식 데이터셋을 가져올 때 설정 가져오기 섹션의 고급 드롭다운 메뉴를 확장합니다. 데이터 흐름 가져오기에 대해 다음과 같은 고급 설정을 지정할 수 있습니다.

    • 샘플링 방법 - 사용하려는 샘플링 방법과 샘플 크기를 선택합니다. 샘플링 방법에 대한 자세한 내용은 이 절차 이후의 섹션을 참조하십시오샘플링 가져오기.

    • 파일 인코딩 (CSV) — 데이터세트 파일의 인코딩을 선택합니다. UTF-8기본값입니다.

    • 첫 행 건너뛰기 — 데이터세트 시작 부분에 중복된 행이 있는 경우 가져오기를 건너뛰고 싶은 행 수를 입력합니다.

    • 구분자 — 데이터의 각 항목을 구분하는 구분자를 선택합니다. 사용자 지정 구분자를 지정할 수도 있습니다.

    • 여러 줄 감지 — Canvas에서 여러 줄 셀의 전체 데이터세트를 수동으로 분석하도록 하려면 이 옵션을 선택하세요. Canvas는 데이터 샘플을 수집하여 여러 줄 지원을 사용할지 여부를 결정하지만 Canvas는 샘플에서 여러 줄 셀을 감지하지 못할 수 있습니다. 이 경우 여러 줄 감지 옵션을 선택하여 Canvas가 전체 데이터세트에서 여러 줄 셀을 검사하도록 강제하는 것이 좋습니다.

  8. 가져오기를 선택합니다.

샘플링 가져오기

테이블 형식 데이터를 Data Wrangler 데이터 흐름으로 가져올 때 데이터 세트의 샘플을 가져와서 데이터 탐색 및 정리 프로세스를 가속화할 수 있습니다. 데이터세트 샘플에서 탐색적 변환을 실행하는 것이 전체 데이터세트에서 변환을 실행하는 것보다 더 빠른 경우가 많으며, 데이터세트를 내보내고 모델을 빌드할 준비가 되면 변환을 전체 데이터세트에 적용할 수 있습니다.

Canvas는 다음과 같은 샘플링 방법을 지원합니다.

  • FirstK — Canvas는 데이터셋에서 처음 K개의 항목을 선택합니다. 여기서 K는 지정한 숫자입니다. 이 샘플링 방법은 간단하지만 데이터셋이 무작위로 정렬되지 않으면 편향이 생길 수 있습니다.

  • 랜덤 — Canvas는 데이터세트에서 항목을 무작위로 선택합니다. 이때 각 항목이 선택될 확률은 동일합니다. 이 샘플링 방법을 사용하면 샘플이 전체 데이터세트를 대표하는지 확인할 수 있습니다.

  • 계층화 — Canvas는 하나 이상의 속성 (예: 연령 및 소득 수준) 에 따라 데이터세트를 그룹 (또는 계층) 으로 나눕니다. 그런 다음 각 그룹에서 일정 수의 항목을 무작위로 선택합니다. 이 방법을 사용하면 관련된 모든 부분군이 표본에 적절하게 표현됩니다.

언제든지 표본 구성을 편집하여 데이터 탐색에 사용되는 표본의 크기를 변경할 수 있습니다. 자세한 내용은 샘플링 구성 편집 단원을 참조하십시오.

데이터 흐름 UI

데이터세트를 가져오면 원본 데이터셋이 데이터 흐름에 나타나고 이름은 Source로 지정됩니다. SageMaker Canvas는 데이터세트에 있는 각 열의 유형을 자동으로 유추하여 Data types라는 새 데이터프레임을 만듭니다. 이 프레임을 선택하여 유추된 데이터 유형을 업데이트할 수 있습니다.

변환 단계를 추가할 때마다 새 데이터 프레임이 생성됩니다. 여러 변환 단계(조인 또는 연결 제외)가 동일한 데이터 세트에 추가되면 해당 단계가 누적됩니다.

데이터 결합 옵션에서 조인연결은 조인되거나 연결된 새 데이터세트를 포함하는 독립형 단계를 만듭니다.

데이터 흐름을 쉽게 탐색할 수 있도록 Data Wrangler의 상단 탐색 창에 다음과 같은 탭이 있습니다.

  • 데이터 흐름 — 이 탭에서는 변환을 추가 또는 제거하고 데이터를 내보낼 수 있는 데이터 흐름 단계를 시각적으로 볼 수 있습니다.

  • 데이터 — 이 탭에서는 변환 결과를 확인할 수 있도록 데이터를 미리 볼 수 있습니다. 또한 데이터 흐름 단계의 정렬된 목록을 보고 단계를 편집하거나 재정렬할 수 있습니다.

  • 분석 - 이 탭에서는 생성한 각 분석에 대한 별도의 하위 탭을 볼 수 있습니다. 예를 들어 히스토그램과 데이터 품질 및 인사이트 (DQI) 보고서를 생성하면 Canvas는 각 보고서에 대한 탭을 생성합니다.

데이터 흐름에 단계 추가

데이터 세트 또는 이전에 추가한 단계 옆의 +를 선택하고 다음 옵션 중 하나를 선택합니다.

  • 데이터 유형 편집 (데이터 유형 단계만 해당): 데이터 유형 단계에 변환을 추가하지 않은 경우 흐름의 데이터 유형 단계를 두 번 클릭하여 데이터 탭을 열고 Data Wrangler가 데이터 세트를 가져올 때 추론한 데이터 유형을 편집할 수 있습니다.

  • 변환 추가: 새 변환 단계를 추가합니다. 추가할 수 있는 데이터 변환에 대해 자세히 알아보려면 데이터 변환 단원을 참조하세요.

  • 데이터 인사이트 확보: 히스토그램 또는 사용자 지정 시각화와 같은 분석을 추가하세요. 이 옵션을 사용하여 데이터 흐름의 어느 시점에서든 데이터를 분석할 수 있습니다. 추가할 수 있는 분석에 대한 자세한 내용은 탐색적 데이터 분석 수행 () EDA 단원을 참조하세요.

  • 조인: 이 옵션은 데이터를 결합하여 두 데이터셋을 조인하고 결과 데이터셋을 데이터 흐름에 추가하기에서 찾을 수 있습니다. 자세한 내용은 데이터 세트 조인하기을 참조하십시오.

  • 연결: 이 옵션은 데이터를 결합하여 두 데이터셋을 연결하고 결과 데이터셋을 데이터 흐름에 추가하기에서 찾을 수 있습니다. 자세한 내용은 데이터 세트 연결하기을 참조하십시오.

데이터 흐름의 단계 순서 변경

데이터 흐름에 단계를 추가한 후 올바른 순서로 단계를 삭제하고 다시 추가하는 대신 단계를 재정렬할 수 있습니다. 예를 들어 문자열 형식 지정 단계 전에 누락된 값을 대체하도록 변환을 이동하기로 결정할 수 있습니다.

참고

데이터 원본 정의, 데이터 유형 변경, 결합, 결합 또는 분할과 같은 특정 단계 유형의 순서를 변경할 수 없습니다. 순서를 바꿀 수 없는 단계는 Canvas 애플리케이션 UI에서 회색으로 표시됩니다.

데이터 흐름 단계를 재정렬하려면 다음을 수행하십시오.

  1. 데이터 랭글러에서 데이터 흐름을 편집하는 동안 데이터 탭을 선택합니다. 단계라는 사이드 패널에는 데이터 흐름 단계가 순서대로 나열되어 있습니다.

  2. 변환 단계를 마우스로 가리키고 해당 단계 옆에 있는 추가 옵션 아이콘 ( Vertical ellipsis icon representing a menu or more options. ) 을 선택합니다.

  3. 컨텍스트 메뉴에서 재정렬을 선택합니다.

  4. 데이터 흐름 단계를 원하는 순서로 끌어다 놓습니다.

  5. 작업을 마치면 [Save] 를 선택합니다.

이제 데이터 흐름 단계와 그래프에 변경 내용이 반영될 것입니다.

샘플링 구성 편집

샘플링 구성을 편집하여 데이터 흐름에 사용되는 샘플의 크기 또는 유형을 변경할 수 있습니다.

샘플링 구성을 변경하려면 다음과 같이 하십시오.

  1. 데이터 흐름 그래프에서 데이터 소스 노드를 선택합니다.

  2. 하단 내비게이션 바에서 샘플링을 선택합니다.

  3. 샘플링 대화 상자가 열립니다. 샘플링 방법 드롭다운에서 원하는 샘플링 방법을 선택합니다.

  4. 최대 표본 크기에는 샘플링하려는 행 수를 입력합니다.

  5. 업데이트를 선택하여 변경 사항을 저장합니다.

이제 샘플링 구성 변경 사항이 적용되어야 합니다.

데이터 원본 단계 편집 또는 바꾸기

원본 데이터에 적용된 변환 및 데이터 흐름 단계를 삭제하지 않고 데이터 원본 또는 데이터셋을 변경해야 할 수 있습니다. 데이터 랭글러 내에서 데이터 흐름의 단계를 유지하면서 데이터 원본 구성을 편집하거나 바꿀 수 있습니다. 데이터 원본을 편집할 때 샘플링 크기나 방법 및 고급 설정과 같은 가져오기 설정을 변경할 수 있습니다. 동일한 스키마로 파일을 더 추가하거나 Amazon Athena와 같은 쿼리 기반 데이터 소스의 경우 쿼리를 편집할 수도 있습니다. 새 데이터의 스키마가 원본 데이터와 일치하기만 하면 데이터 소스를 교체할 때 다른 데이터 세트를 선택하거나 완전히 다른 데이터 소스에서 데이터를 가져올 수도 있습니다.

데이터 원본 구성을 편집하려면 다음과 같이 하세요.

  1. Canvas 애플리케이션에서 데이터 랭글러 페이지로 이동합니다.

  2. 보려면 데이터 흐름을 선택하세요.

  3. 데이터 흐름 단계를 보여주는 데이터 흐름 탭에서 편집하려는 소스 노드를 찾습니다.

  4. 소스 노드 옆에 있는 줄임표 아이콘을 선택합니다.

  5. 컨텍스트 메뉴에서 편집을 선택합니다.

  6. Amazon S3 데이터 소스 및 로컬 업로드의 경우 원본 데이터와 동일한 스키마를 사용하여 파일을 더 선택하거나 업로드할 수 있습니다. Amazon Athena와 같은 쿼리 기반 데이터 소스의 경우 시각적 쿼리 작성기에서 다른 테이블을 제거하고 선택하거나 쿼리를 직접 편집할 수 있습니다. SQL 완료했으면 다음을 선택합니다.

  7. 가져오기 설정의 경우 원하는 대로 변경합니다.

  8. 작업을 마쳤으면 변경사항 저장을 선택합니다.

이제 데이터 원본이 업데이트되어야 합니다.

데이터 소스를 바꾸려면 다음과 같이 하세요.

  1. Canvas 애플리케이션에서 데이터 랭글러 페이지로 이동합니다.

  2. 보려면 데이터 흐름을 선택하세요.

  3. 데이터 흐름 단계를 보여주는 데이터 흐름 탭에서 편집하려는 소스 노드를 찾습니다.

  4. 소스 노드 옆에 있는 줄임표 아이콘을 선택합니다.

  5. 컨텍스트 메뉴에서 [바꾸기] 를 선택합니다.

  6. 데이터 흐름으로 데이터 가져오기 환경에서 다른 데이터 소스 및 데이터를 선택합니다.

  7. 데이터를 선택하고 소스 노드를 업데이트할 준비가 되면 [Save] 를 선택합니다.

이제 데이터 흐름에서 소스 노드가 업데이트된 것을 확인할 수 있습니다.

데이터 흐름에서 한 단계 삭제

단계를 삭제하려면 데이터 흐름의 데이터 흐름 탭에서 단계 옆에 있는 +를 선택하고 삭제를 선택합니다. 노드가 단일 입력이 있는 노드인 경우 선택한 단계만 삭제합니다. 입력이 하나인 단계를 삭제해도 그 뒤에 오는 단계는 삭제되지 않습니다. 소스, 조인 또는 연결 노드의 단계를 삭제하는 경우 해당 단계를 따르는 모든 단계도 삭제됩니다.

단계 스택에서 단계를 삭제하려면 스택을 선택한 다음 삭제할 단계를 선택합니다.

다운스트림 단계를 삭제하지 않고 다음 절차 중 하나에 따라 단계를 삭제할 수 있습니다.

Delete a step in the Data Wrangler flow

단일 입력이 있는 데이터 흐름의 노드에 대해 개별 단계를 삭제할 수 있습니다. 소스, 조인 및 연결 노드의 개별 단계는 삭제할 수 없습니다.

Data Wrangler 흐름에서 단계를 삭제하려면 다음 절차를 따르세요.

  1. 삭제하려는 단계가 있는 단계 그룹을 선택합니다.

  2. 단계 옆에 있는 아이콘을 선택합니다.

  3. 스택 삭제를 선택합니다.

Delete a step in the table view

다음 절차에 따라 테이블 보기에서 단계를 삭제합니다.

단일 입력이 있는 데이터 흐름의 노드에 대해 개별 단계를 삭제할 수 있습니다. 소스, 조인 및 연결 노드의 개별 단계는 삭제할 수 없습니다.

  1. 단계를 선택하고 해당 단계의 테이블 보기를 엽니다.

  2. 커서를 단계 위로 이동하면 줄임표 아이콘이 나타납니다.

  3. 단계 옆에 있는 아이콘을 선택합니다.

  4. Delete(삭제)를 선택합니다.