기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 품질 및 인사이트 보고서를 사용하여 Data Wrangler로 가져온 데이터를 분석할 수 있습니다. 데이터세트를 가져온 후 보고서를 생성하는 것이 좋습니다. 보고서를 사용하여 데이터를 정리하고 처리할 수 있습니다. 이는 누락된 값의 갯수, 이상치 갯수 등의 정보를 제공합니다. 대상 누출 또는 불균형과 같은 데이터 관련 문제가 있는 경우 인사이트 보고서를 통해 이러한 문제를 파악할 수 있습니다.
다음 절차에 따라 데이터 품질 및 인사이트 보고서를 생성합니다. 여기서는 데이터세트를 Data Wrangler 흐름으로 이미 가져온 것으로 가정합니다.
데이터 품질 및 인사이트 보고서를 생성하려면
-
Data Wrangler 흐름에서 노드 옆에 있는 +를 선택합니다.
-
Get data insights(데이터 인사이트 가져오기)를 선택합니다.
-
Analysis name(분석 이름)에 인사이트 보고서의 이름을 지정합니다.
-
(선택 사항) Target column(대상 열)에 대상 열을 지정합니다.
-
Problem type(문제 유형)에는 Regression(회귀) 또는 Classification(분류)를 지정합니다.
-
Data size(데이터 크기)로 다음 중 하나를 지정합니다.
-
50 K - 보고서를 만들기 위해 가져온 데이터세트 중 처음 50000개 행을 사용합니다.
-
Entire dataset(전체 데이터세트) - 보고서를 만들기 위해 가져온 전체 데이터세트를 사용합니다.
참고
전체 데이터 세트에 대한 데이터 품질 및 인사이트 보고서를 생성하려면 Amazon SageMaker 처리 작업을 사용합니다. SageMaker 처리 작업은 모든 데이터에 대한 인사이트를 얻는 데 필요한 추가 컴퓨팅 리소스를 프로비저닝합니다. 작업 SageMaker 처리에 대한 자세한 내용은 섹션을 참조하세요 SageMaker 처리를 통한 데이터 변환 워크로드.
-
-
생성(Create)을 선택합니다.
다음 주제는 보고서의 섹션을 보여줍니다.
보고서를 다운로드하거나 온라인으로 볼 수 있습니다. 보고서를 다운로드하려면 화면 오른쪽 위 모서리에 있는 다운로드 버튼을 선택합니다. 다음 이미지는 버튼을 보여줍니다.
요약
인사이트 보고서에는 누락된 값, 유효하지 않은 값, 변수 유형, 이상치 갯수 등과 같은 일반 정보가 포함된 간략한 데이터 요약이 있습니다. 또한 데이터에 발생할 수 있는 문제를 가리키는 심각도가 높은 경고도 포함될 수 있습니다. 경고를 조사하는 것이 좋습니다.
다음은 이러한 보고서 요약의 예입니다.
대상 열
데이터 품질 및 인사이트 보고서를 만들 때 Data Wrangler는 대상 열을 선택할 수 있는 옵션을 제공합니다. 대상 열은 예측하려는 열입니다. 대상 열을 선택하면 Data Wrangler가 자동으로 대상 열 분석을 생성합니다. 또한 예측력 순서대로 변수의 순위를 매깁니다. 대상 열을 선택할 때는 회귀 문제를 해결할지 분류 문제를 해결할지 지정해야 합니다.
분류의 경우 Data Wrangler는 가장 일반적인 클래스의 표와 히스토그램을 보여줍니다. 클래스는 범주입니다. 또한 누락되거나 유효하지 않은 대상 값이 있는 관측치 또는 행을 표시합니다.
다음 이미지는 분류 문제에 대한 대상 열 분석 예를 보여줍니다.
회귀의 경우 Data Wrangler는 대상 열에 있는 모든 값의 히스토그램을 보여줍니다. 또한 누락되거나, 유효하지 않은, 또는 이상치 대상 값이 있는 관측치 또는 행을 표시합니다.
다음 이미지는 회귀 문제에 대한 대상 열 분석 예를 보여줍니다.
빠른 모델
Quick Model(빠른 모델)은 데이터를 기반으로 훈련한 모델의 기대되는 예상 품질 추정치를 제공합니다.
Data Wrangler는 데이터를 훈련 폴드와 검증 폴드로 분할합니다. 샘플의 80%를 훈련에 사용하고 값의 20%를 검증에 사용합니다. 분류의 경우 표본을 계층화 분할합니다. 계층화 분할의 경우 각 데이터 파티션의 레이블 비율이 동일합니다. 분류 문제의 경우 훈련 폴드와 분류 폴드의 레이블 비율을 동일하게 유지하는 것이 중요합니다. Data Wrangler는 기본 하이퍼파라미터로 XGBoost 모델을 훈련합니다. 검증 데이터에 조기 중지를 적용하고 변수 사전 처리를 최소화합니다.
분류 모델의 경우 Data Wrangler는 모델 요약과 혼동 행렬을 모두 반환합니다.
다음은 분류 모델 요약의 예제입니다. 반환되는 정보에 대한 자세한 내용은 정의 섹션을 참조하세요.
다음은 빠른 모델이 반환하는 혼동 행렬의 예입니다.
혼동 행렬은 다음 정보를 제공합니다.
-
예측 레이블이 실제 레이블과 일치하는 횟수.
-
예측 레이블이 실제 레이블과 일치하지 않는 횟수.
실제 레이블은 데이터의 실제 관측치를 나타냅니다. 예를 들어, 사기 거래를 탐지하기 위해 모델을 사용하는 경우 실제 레이블은 실제로 사기 또는 사기가 아닌 거래를 나타냅니다. 예측 레이블은 모델이 데이터에 할당하는 레이블을 나타냅니다.
혼동 행렬을 사용하여 모델이 조건의 유무를 얼마나 잘 예측하는지 확인할 수 있습니다. 부정 거래를 예측하는 경우, 혼동 행렬을 사용하여 모델의 민감도와 특이도를 모두 파악할 수 있습니다. 민감도는 사기 거래를 탐지하는 모델의 능력을 나타냅니다. 특이도란 모델이 사기가 아닌 거래를 사기로 탐지하는 것을 피하는 능력을 말합니다.
다음은 회귀 문제에 대한 빠른 모델 출력의 예입니다.
변수 요약
대상 열을 지정하면 Data Wrangler는 예측력에 따라 변수를 정렬합니다. 예측력은 데이터를 80% 훈련 폴드와 20% 검증 폴드로 분할한 후 데이터를 기준으로 측정됩니다. Data Wrangler는 훈련 폴드에서 각 변수에 대한 모델을 개별적으로 피팅합니다. 변수 전처리를 최소화하고 검증 데이터에 대한 예측 성능을 측정합니다.
점수를 [0,1] 범위로 정규화합니다. 예측 점수가 높을수록 열 자체가 대상을 예측하는 데 더 유용하다는 뜻입니다. 점수가 낮을수록 열이 대상 열을 예측할 수 없음을 보여줍니다.
예측 가능하지 않은 열을 다른 열과 함께 사용한다고 예측 가능한 열이 되는 경우는 드뭅니다. 예측 점수를 사용하여 데이터세트의 변수가 예측 가능한지 여부를 확실하게 판단할 수 있습니다.
일반적으로 점수가 낮으면 변수가 중복되었음을 나타냅니다. 1점은 완벽한 예측 능력을 나타내며, 이는 종종 대상 누출을 나타냅니다. 대상 누출은 일반적으로 예측 시점에 사용할 수 없는 열이 데이터세트에 포함되어 있을 때 발생합니다. 예를 들어 대상 열과 중복된 열일 수 있습니다.
다음은 각 변수의 예측값을 보여주는 표와 히스토그램의 예입니다.
샘플
Data Wrangler는 표본이 비정상적인지 또는 데이터세트에 중복이 있는지 여부에 대한 정보를 제공합니다.
Data Wrangler는 격리 포리스트 알고리즘(isolation forest algorithm)을 사용하여 비정상적인 샘플을 탐지합니다. 격리 포리스트는 비정상 점수를 데이터세트의 각 샘플 (행)과 연결합니다. 비정상 점수가 낮으면 변칙 샘플이 있음을 나타냅니다. 높은 점수는 비정상이 아닌 샘플과 관련이 있습니다. 일반적으로 비정상 점수가 음수인 샘플은 변칙으로 간주되고 변칙 점수가 양수인 샘플은 비정상이 아닌 것으로 간주됩니다.
비정상일 수 있는 표본을 볼 때는 특이한 값에 주의를 기울이는 것이 좋습니다. 예를 들어, 데이터 수집 및 처리 중 오류로 인한 비정상적인 값이 발생할 수 있습니다. 다음은 Data Wrangler의 격리 포리스트 알고리즘 구현에 따른 가장 비정적인 샘플의 예입니다. 비정상적인 샘플을 검사할 때는 도메인 지식과 비즈니스 로직을 사용하는 것이 좋습니다.
Data Wrangler는 중복된 행을 탐지하고 데이터에서 중복된 행의 비율을 계산합니다. 일부 데이터 소스에는 유효한 중복이 포함될 수 있습니다. 다른 데이터 소스에는 데이터 수집 문제를 나타내는 중복이 있을 수 있습니다. 잘못된 데이터 수집으로 인해 샘플이 중복되면 데이터를 독립적인 훈련 및 검증 폴드로 분할하는 데 의존하는 기계 학습 프로세스에 방해가 될 수 있습니다.
중복된 샘플로 인해 영향을 받을 수 있는 인사이트 보고서의 요소는 다음과 같습니다.
-
빠른 모델
-
예측력 추정
-
자동 하이퍼파라미터 튜닝
Manage rows(행 관리)에서 Drop duplicates(중복 삭제) 변환을 사용하여 데이터세트에서 중복 샘플을 제거할 수 있습니다. Data Wrangler는 가장 자주 중복되는 행을 보여줍니다.
정의
다음은 데이터 인사이트 보고서에 사용되는 기술 용어에 대한 정의입니다.
다음은 각 변수 유형에 대한 정의입니다.
-
Numeric(숫자) - 숫자 값은 부동 소수점 또는 정수일 수 있습니다 (예: 연령 또는 수입). 기계 학습 모델은 숫자 값은 정렬되어 있고 숫자 값에 대한 거리가 정의되어 있다고 가정합니다. 예를 들어 3은 10보다 4에 더 가깝고 3 < 4 < 10입니다.
-
범주형 - 열 항목은 고유한 값 집합에 속하며, 집합의 수는 일반적으로 열의 항목 수보다 훨씬 적습니다. 예를 들어, 길이가 100인 열에는 고유한 값
Dog
,Cat
및Mouse
가 포함될 수 있습니다. 값은 숫자, 텍스트 또는 이 두 가지의 조합일 수 있습니다.Horse
,House
,8
,Love
및3.1
는 모두 유효한 값이며 동일한 범주형 열에서 찾을 수 있습니다. 기계 학습 모델은 모든 값이 숫자인 경우에도 수치형 변수와 달리 범주형 변수 값의 순서나 거리를 가정하지 않습니다. -
Binary(바이너리) - 바이너리 변수는 고유한 값 집합의 카디널리티가 2인 특수 범주형 변수 유형입니다.
-
Text(텍스트) - 텍스트 열에는 숫자가 아닌 고유 값이 많이 포함되어 있습니다. 극단적인 경우에는 열의 모든 요소가 고유합니다. 극단적인 경우에는 동일한 항목이 두 개 없을 수도 있습니다.
-
Datetime(날짜시간) - 날짜/시간 열에는 날짜 또는 시간에 대한 정보가 포함됩니다. 날짜와 시간에 대한 정보를 모두 포함할 수 있습니다.