데이터 및 데이터 품질에 대한 인사이트 확보

포커스 모드

데이터 및 데이터 품질에 대한 인사이트 확보 - Amazon SageMaker AI

데이터 품질 및 인사이트 보고서를 사용하여 Data Wrangler로 가져온 데이터를 분석할 수 있습니다. 데이터세트를 가져온 후 보고서를 생성하는 것이 좋습니다. 보고서를 사용하여 데이터를 정리하고 처리할 수 있습니다. 이는 누락된 값의 갯수, 이상치 갯수 등의 정보를 제공합니다. 대상 누출 또는 불균형과 같은 데이터 관련 문제가 있는 경우 인사이트 보고서를 통해 이러한 문제를 파악할 수 있습니다.

다음 절차에 따라 데이터 품질 및 인사이트 보고서를 생성합니다. 여기서는 데이터세트를 Data Wrangler 흐름으로 이미 가져온 것으로 가정합니다.

데이터 품질 및 인사이트 보고서를 생성하려면

Data Wrangler 흐름에서 노드 옆에 있는 +를 선택합니다.
Get data insights(데이터 인사이트 가져오기)를 선택합니다.
Analysis name(분석 이름)에 인사이트 보고서의 이름을 지정합니다.
(선택 사항) Target column(대상 열)에 대상 열을 지정합니다.
Problem type(문제 유형)에는 Regression(회귀) 또는 Classification(분류)를 지정합니다.
Data size(데이터 크기)로 다음 중 하나를 지정합니다.
- 50 K - 보고서를 만들기 위해 가져온 데이터세트 중 처음 50000개 행을 사용합니다.
- Entire dataset(전체 데이터세트) - 보고서를 만들기 위해 가져온 전체 데이터세트를 사용합니다.
참고
전체 데이터세트에 대한 데이터 품질 및 인사이트 보고서를 생성하려면 Amazon SageMaker 처리 작업을 사용합니다. SageMaker Processing 작업은 모든 데이터에 대한 인사이트를 얻는 데 필요한 추가 컴퓨팅 리소스를 프로비저닝합니다. SageMaker 처리 작업에 대한 자세한 내용은 섹션을 참조하세요SageMaker Processing을 사용한 데이터 변환 워크로드.
Create(생성)을 선택합니다.

다음 주제는 보고서의 섹션을 보여줍니다.

보고서를 다운로드하거나 온라인으로 볼 수 있습니다. 보고서를 다운로드하려면 화면 오른쪽 위 모서리에 있는 다운로드 버튼을 선택합니다. 다음 이미지는 버튼을 보여줍니다.

요약

인사이트 보고서에는 누락된 값, 유효하지 않은 값, 변수 유형, 이상치 갯수 등과 같은 일반 정보가 포함된 간략한 데이터 요약이 있습니다. 또한 데이터에 발생할 수 있는 문제를 가리키는 심각도가 높은 경고도 포함될 수 있습니다. 경고를 조사하는 것이 좋습니다.

다음은 이러한 보고서 요약의 예입니다.

대상 열

데이터 품질 및 인사이트 보고서를 만들 때 Data Wrangler는 대상 열을 선택할 수 있는 옵션을 제공합니다. 대상 열은 예측하려는 열입니다. 대상 열을 선택하면 Data Wrangler가 자동으로 대상 열 분석을 생성합니다. 또한 예측력 순서대로 변수의 순위를 매깁니다. 대상 열을 선택할 때는 회귀 문제를 해결할지 분류 문제를 해결할지 지정해야 합니다.

분류의 경우 Data Wrangler는 가장 일반적인 클래스의 표와 히스토그램을 보여줍니다. 클래스는 범주입니다. 또한 누락되거나 유효하지 않은 대상 값이 있는 관측치 또는 행을 표시합니다.

다음 이미지는 분류 문제에 대한 대상 열 분석 예를 보여줍니다.

회귀의 경우 Data Wrangler는 대상 열에 있는 모든 값의 히스토그램을 보여줍니다. 또한 누락되거나, 유효하지 않은, 또는 이상치 대상 값이 있는 관측치 또는 행을 표시합니다.

다음 이미지는 회귀 문제에 대한 대상 열 분석 예를 보여줍니다.

빠른 모델

Quick Model(빠른 모델)은 데이터를 기반으로 훈련한 모델의 기대되는 예상 품질 추정치를 제공합니다.

Data Wrangler는 데이터를 훈련 폴드와 검증 폴드로 분할합니다. 샘플의 80%를 훈련에 사용하고 값의 20%를 검증에 사용합니다. 분류의 경우 표본을 계층화 분할합니다. 계층화 분할의 경우 각 데이터 파티션의 레이블 비율이 동일합니다. 분류 문제의 경우 훈련 폴드와 분류 폴드의 레이블 비율을 동일하게 유지하는 것이 중요합니다. Data Wrangler는 기본값 하이퍼파라미터를 사용하여 XGBoost 모델을 훈련시킵니다. 검증 데이터에 조기 중지를 적용하고 변수 사전 처리를 최소화합니다.

분류 모델의 경우 Data Wrangler는 모델 요약과 혼동 행렬을 모두 반환합니다.

다음은 분류 모델 요약의 예제입니다. 반환되는 정보에 대한 자세한 내용은 정의 섹션을 참조하세요.

다음은 빠른 모델이 반환하는 혼동 행렬의 예입니다.

혼동 행렬은 다음 정보를 제공합니다.

예측 레이블이 실제 레이블과 일치하는 횟수.
예측 레이블이 실제 레이블과 일치하지 않는 횟수.

실제 레이블은 데이터의 실제 관측치를 나타냅니다. 예를 들어, 사기 거래를 탐지하기 위해 모델을 사용하는 경우 실제 레이블은 실제로 사기 또는 사기가 아닌 거래를 나타냅니다. 예측 레이블은 모델이 데이터에 할당하는 레이블을 나타냅니다.

혼동 행렬을 사용하여 모델이 조건의 유무를 얼마나 잘 예측하는지 확인할 수 있습니다. 부정 거래를 예측하는 경우, 혼동 행렬을 사용하여 모델의 민감도와 특이도를 모두 파악할 수 있습니다. 민감도는 사기 거래를 탐지하는 모델의 능력을 나타냅니다. 특이도란 모델이 사기가 아닌 거래를 사기로 탐지하는 것을 피하는 능력을 말합니다.

다음은 회귀 문제에 대한 빠른 모델 출력의 예입니다.

변수 요약

대상 열을 지정하면 Data Wrangler는 예측력에 따라 변수를 정렬합니다. 예측력은 데이터를 80% 훈련 폴드와 20% 검증 폴드로 분할한 후 데이터를 기준으로 측정됩니다. Data Wrangler는 훈련 폴드에서 각 변수에 대한 모델을 개별적으로 피팅합니다. 변수 전처리를 최소화하고 검증 데이터에 대한 예측 성능을 측정합니다.

점수를 [0,1] 범위로 정규화합니다. 예측 점수가 높을수록 열 자체가 대상을 예측하는 데 더 유용하다는 뜻입니다. 점수가 낮을수록 열이 대상 열을 예측할 수 없음을 보여줍니다.

예측 가능하지 않은 열을 다른 열과 함께 사용한다고 예측 가능한 열이 되는 경우는 드뭅니다. 예측 점수를 사용하여 데이터세트의 변수가 예측 가능한지 여부를 확실하게 판단할 수 있습니다.

일반적으로 점수가 낮으면 변수가 중복되었음을 나타냅니다. 1점은 완벽한 예측 능력을 나타내며, 이는 종종 대상 누출을 나타냅니다. 대상 누출은 일반적으로 예측 시점에 사용할 수 없는 열이 데이터세트에 포함되어 있을 때 발생합니다. 예를 들어 대상 열과 중복된 열일 수 있습니다.

다음은 각 변수의 예측값을 보여주는 표와 히스토그램의 예입니다.

샘플

Data Wrangler는 표본이 비정상적인지 또는 데이터세트에 중복이 있는지 여부에 대한 정보를 제공합니다.

Data Wrangler는 격리 포리스트 알고리즘(isolation forest algorithm)을 사용하여 비정상적인 샘플을 탐지합니다. 격리 포리스트는 비정상 점수를 데이터세트의 각 샘플 (행)과 연결합니다. 비정상 점수가 낮으면 변칙 샘플이 있음을 나타냅니다. 높은 점수는 비정상이 아닌 샘플과 관련이 있습니다. 일반적으로 비정상 점수가 음수인 샘플은 변칙으로 간주되고 변칙 점수가 양수인 샘플은 비정상이 아닌 것으로 간주됩니다.

비정상일 수 있는 표본을 볼 때는 특이한 값에 주의를 기울이는 것이 좋습니다. 예를 들어, 데이터 수집 및 처리 중 오류로 인한 비정상적인 값이 발생할 수 있습니다. 다음은 Data Wrangler의 격리 포리스트 알고리즘 구현에 따른 가장 비정적인 샘플의 예입니다. 비정상적인 샘플을 검사할 때는 도메인 지식과 비즈니스 로직을 사용하는 것이 좋습니다.

Data Wrangler는 중복된 행을 탐지하고 데이터에서 중복된 행의 비율을 계산합니다. 일부 데이터 소스에는 유효한 중복이 포함될 수 있습니다. 다른 데이터 소스에는 데이터 수집 문제를 나타내는 중복이 있을 수 있습니다. 잘못된 데이터 수집으로 인해 샘플이 중복되면 데이터를 독립적인 훈련 및 검증 폴드로 분할하는 데 의존하는 기계 학습 프로세스에 방해가 될 수 있습니다.

중복된 샘플로 인해 영향을 받을 수 있는 인사이트 보고서의 요소는 다음과 같습니다.

빠른 모델
예측력 추정
자동 하이퍼파라미터 튜닝

Manage rows(행 관리)에서 Drop duplicates(중복 삭제) 변환을 사용하여 데이터세트에서 중복 샘플을 제거할 수 있습니다. Data Wrangler는 가장 자주 중복되는 행을 보여줍니다.

정의

다음은 데이터 인사이트 보고서에 사용되는 기술 용어에 대한 정의입니다.

Feature types

다음은 각 변수 유형에 대한 정의입니다.

Numeric(숫자) - 숫자 값은 부동 소수점 또는 정수일 수 있습니다 (예: 연령 또는 수입). 기계 학습 모델은 숫자 값은 정렬되어 있고 숫자 값에 대한 거리가 정의되어 있다고 가정합니다. 예를 들어 3은 10보다 4에 더 가깝고 3 < 4 < 10입니다.
범주형 - 열 항목은 고유한 값 집합에 속하며, 집합의 수는 일반적으로 열의 항목 수보다 훨씬 적습니다. 예를 들어, 길이가 100인 열에는 고유한 값 Dog, Cat 및 Mouse가 포함될 수 있습니다. 값은 숫자, 텍스트 또는 이 두 가지의 조합일 수 있습니다. Horse, House, 8, Love 및 3.1 는 모두 유효한 값이며 동일한 범주형 열에서 찾을 수 있습니다. 기계 학습 모델은 모든 값이 숫자인 경우에도 수치형 변수와 달리 범주형 변수 값의 순서나 거리를 가정하지 않습니다.
Binary(바이너리) - 바이너리 변수는 고유한 값 집합의 카디널리티가 2인 특수 범주형 변수 유형입니다.
Text(텍스트) - 텍스트 열에는 숫자가 아닌 고유 값이 많이 포함되어 있습니다. 극단적인 경우에는 열의 모든 요소가 고유합니다. 극단적인 경우에는 동일한 항목이 두 개 없을 수도 있습니다.
Datetime(날짜시간) - 날짜/시간 열에는 날짜 또는 시간에 대한 정보가 포함됩니다. 날짜와 시간에 대한 정보를 모두 포함할 수 있습니다.

Feature statistics

다음은 각 변수 통계에 대한 정의입니다.

예측력 - 예측력은 대상을 예측하는 데 열이 얼마나 유용한지를 측정합니다.
이상치 (숫자 열의) - Data Wrangler는 이상치에 대한 확고한 두 가지 통계, 즉 중앙값과 강력한 표준 편차(RSTD)를 사용하여 이상치를 탐지합니다. RSTD는 변수 값을 [5 백분위수, 95 백분위수] 범위로 클리핑한 다음 클리핑된 벡터의 표준 편차를 계산하여 도출됩니다. 중앙값 + 5 * RSTD보다 크거나 중앙값 - 5 * RSTD보다 작은 모든 값은 이상치로 간주됩니다.
스큐(Skew) (숫자 열의) - 스큐는 분포의 대칭성을 측정하며 분포의 세 번째 모멘트를 표준 편차의 3제곱으로 나눈 값으로 정의됩니다. 정규 분포 또는 기타 대칭 분포의 왜도는 0입니다. 양수 값은 분포의 오른쪽 꼬리가 왼쪽 꼬리보다 길다는 것을 의미합니다. 음수 값은 분포의 왼쪽 꼬리가 오른쪽 꼬리보다 길다는 것을 의미합니다. 일반적으로 스큐의 절대값이 3보다 크면 분포가 치우친 것으로 간주됩니다.
첨도(Kurtosis) (숫자 열의) - Pearson의 첨도는 분포 꼬리의 영향을 측정합니다. 분포의 네 번째 모멘트를 두 번째 모멘트의 제곱으로 나눈 값으로 정의됩니다. 정규 분포의 첨도는 3입니다. 첨도 값이 3보다 작으면 분포가 평균 주위에 집중되고 꼬리가 정규 분포의 꼬리보다 가볍다는 것을 의미합니다. 첨도 값이 3보다 크면 꼬리 또는 이상치가 더 무겁다는 의미입니다.
누락된 값 - NULL과 유사한 객체, 빈 문자열, 공백으로만 구성된 문자열은 누락된 것으로 간주됩니다.
숫자 변수 또는 회귀 대상에 적합한 값 - 유한 부동 소수점으로 지정할 수 있는 모든 값이 유효합니다. 누락된 값은 유효하지 않습니다.
범주형, 바이너리 또는 텍스트 변수 또는 분류 대상에 유효한 값 - 누락되지 않은 모든 값이 유효합니다.
Datetime 변수 날짜/시간 객체로 지정할 수 있는 모든 값이 유효합니다. 누락된 값은 유효하지 않습니다.
유효하지 않은 값 - 누락되었거나 제대로 지정할 수 없는 값. 예를 들어 숫자 열에서는 "six" 문자열이나 null 값을 지정할 수 없습니다.

Quick model metrics for regression

다음은 빠른 모델 메트릭의 정의입니다.

R2 (또는 결정 계수) - R2는 모델이 예측한 대상의 변동 비율입니다. R2는 [-infty, 1] 범위 내에 있습니다. 1은 대상을 완벽하게 예측하는 모델의 점수이고 0은 항상 대상 평균을 예측하는 간단한 모델의 점수입니다.
MSE 또는 평균 제곱 오차 - MSE는 [0, infty] 범위에 있습니다. 0은 대상을 완벽하게 예측하는 모델의 점수입니다.
MAE 또는 평균 절대 오차 - MAE는 [0, infty] 범위에 있습니다. 여기서 0은 대상을 완벽하게 예측하는 모델의 점수입니다.
RMSE 또는 제곱근 오차 - RMSE는 [0, infty] 범위에 있습니다. 여기서 0은 대상을 완벽하게 예측하는 모델의 점수입니다.
최대 오차 - 데이터세트에 대한 오차의 최대 절대값입니다. 최대 오차는 [0, infty] 범위에 있습니다. 0은 대상을 완벽하게 예측하는 모델의 점수입니다.
절대 오차 중앙값 - 절대 오차 중앙값은 [0, infty] 범위에 있습니다. 0은 대상을 완벽하게 예측하는 모델의 점수입니다.

Quick model metrics for classification

다음은 빠른 모델 메트릭의 정의입니다.

정확도(Accuracy) - 정확도는 정확하게 예측된 샘플의 비율입니다. 정확도는 [0, 1] 범위에 있습니다. 0은 모든 샘플을 잘못 예측한 모델의 점수이고 1은 완벽한 모델의 점수입니다.
균형 정확도 - 균형 정확도는 데이터의 균형을 맞추기 위해 클래스 가중치를 조정할 때 정확하게 예측된 샘플의 비율입니다. 빈도와 상관없이 모든 클래스에 동일한 중요도가 부여됩니다. 균형 정확도는 [0, 1] 범위에 있습니다. 0은 모든 샘플을 잘못 예측한 모델의 점수이고 1은 완벽한 모델의 점수입니다.
AUC (바이너리 분류) - 수신기 작동 특성 곡선 아래 면적입니다. AUC는 [0, 1] 범위에 있으며, 여기서 랜덤 모델은 0.5점을 반환하고 완벽한 모델은 1점을 반환합니다.
AUC (OVR) - 다중 클래스 분류의 경우 이는 한 레이블을 나머지 레이블과 대비하여 각 레이블에 대해 개별적으로 계산된 수신기 작동 특성 곡선 아래 면적입니다. Data Wrangler는 면적의 평균을 보고합니다. AUC는 [0, 1] 범위에 있으며, 여기서 랜덤 모델은 0.5점을 반환하고 완벽한 모델은 1점을 반환합니다.
정밀도(Precision) - 정밀도는 특정 클래스에 대해 정의됩니다. 정밀도는 모델이 해당 클래스로 분류한 모든 인스턴스 중에서 True positive의 비율을 나타냅니다. 정밀도는 [0, 1] 범위 내에 있습니다. 1은 해당 클래스에 대해 False Positive가 없는 모델의 점수입니다. 바이너리 분류의 경우 Data Wrangler는 포지티브 클래스의 정밀도를 보고합니다.
재현율(Recall) - 리콜은 특정 클래스에 대해 정의됩니다. 재현율은 관련 클래스 인스턴스 중 성공적으로 검색된 인스턴스의 비율입니다. 재현율은 [0, 1] 범위 내에 있습니다. 1은 클래스의 모든 인스턴스를 올바르게 분류한 모델의 점수입니다. 바이너리 분류의 경우 Data Wrangler는 포지티브 클래스의 재현율을 보고합니다.
F1 - F1은 특정 클래스에 대해 정의됩니다. F1은 정밀도와 재현율의 조화 평균입니다. F1의 범위는 [0, 1]입니다. 1은 완벽한 모델의 점수입니다. 바이너리 분류의 경우 Data Wrangler는 값이 양수인 클래스에 대해 F1을 보고합니다.

Textual patterns

패턴은 읽기 쉬운 형식을 사용하여 문자열의 텍스트 형식을 설명합니다. 다음은 텍스트 패턴의 예입니다.

“{digits:4-7}”는 길이가 4에서 7 사이인 일련의 숫자를 나타냅니다.
“{alnum:5}”는 길이가 정확히 5인 영숫자 문자열을 나타냅니다.

Data Wrangler는 데이터의 비어 있지 않은 문자열의 샘플을 보고 패턴을 유추합니다. 일반적으로 사용되는 여러 패턴을 설명할 수 있습니다. 백분율로 표시되는 신뢰도는 패턴과 일치하는 것으로 추정되는 데이터의 양을 나타냅니다. 텍스트 패턴을 사용하면 데이터에서 수정하거나 삭제해야 하는 행을 확인할 수 있습니다.

다음은 Data Wrangler가 인식할 수 있는 패턴을 설명합니다.

패턴	텍스트 형식
{alnum}	영숫자 문자열
{any}	모든 단어 문자열
{digits}	일련의 숫자
{lower}	소문자 단어
{mixed}	대소문자가 혼합된 단어
{name}	대문자로 시작하는 단어
{upper}	대문자 단어
{whitespace}	공백(화이트스페이스) 문자

단어 문자는 밑줄이거나 모든 언어의 단어에 나타날 수 있는 문자입니다. 예를 들어, 'Hello_Word' 및 'écoute' 문자열은 모두 단어 문자로 구성됩니다. 'H'와 'é' 모두 단어 문자의 예입니다.

anchor anchor anchor anchor anchor

다음은 각 변수 유형에 대한 정의입니다.

Numeric(숫자) - 숫자 값은 부동 소수점 또는 정수일 수 있습니다 (예: 연령 또는 수입). 기계 학습 모델은 숫자 값은 정렬되어 있고 숫자 값에 대한 거리가 정의되어 있다고 가정합니다. 예를 들어 3은 10보다 4에 더 가깝고 3 < 4 < 10입니다.
범주형 - 열 항목은 고유한 값 집합에 속하며, 집합의 수는 일반적으로 열의 항목 수보다 훨씬 적습니다. 예를 들어, 길이가 100인 열에는 고유한 값 Dog, Cat 및 Mouse가 포함될 수 있습니다. 값은 숫자, 텍스트 또는 이 두 가지의 조합일 수 있습니다. Horse, House, 8, Love 및 3.1 는 모두 유효한 값이며 동일한 범주형 열에서 찾을 수 있습니다. 기계 학습 모델은 모든 값이 숫자인 경우에도 수치형 변수와 달리 범주형 변수 값의 순서나 거리를 가정하지 않습니다.
Binary(바이너리) - 바이너리 변수는 고유한 값 집합의 카디널리티가 2인 특수 범주형 변수 유형입니다.
Text(텍스트) - 텍스트 열에는 숫자가 아닌 고유 값이 많이 포함되어 있습니다. 극단적인 경우에는 열의 모든 요소가 고유합니다. 극단적인 경우에는 동일한 항목이 두 개 없을 수도 있습니다.
Datetime(날짜시간) - 날짜/시간 열에는 날짜 또는 시간에 대한 정보가 포함됩니다. 날짜와 시간에 대한 정보를 모두 포함할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Data Wrangler 흐름을 생성합니다.

데이터 플로우에서 모델 자동 훈련하기

이 페이지에서

쿠키 기본 설정 선택

쿠키 기본 설정 사용자 지정

필수

성능

기능

광고

쿠키 기본 설정을 저장할 수 없음

데이터 및 데이터 품질에 대한 인사이트 확보

데이터 품질 및 인사이트 보고서를 생성하려면

참고

주제

요약

대상 열

빠른 모델

변수 요약

샘플

정의

이 페이지에서

Related resources

페이지 내용이 도움이 되었습니까?

Related resources

다음 주제:

이전 주제:

도움이 필요하십니까?

다운로드 버튼을 보여주는 예시입니다.

보고서 요약의 예시입니다.

대상 열 분석의 예시입니다.

대상 열 분석의 예시입니다.

분류 모델 요약의 예시입니다.

혼동 행렬의 예시입니다.

회귀 문제에 대한 빠른 모델 출력의 예시입니다.

각 기능의 예측 값을 보여주는 요약 표의 예시입니다.

각 특성의 예측 값을 보여주는 히스토그램 예시입니다.