데이터셋의 데이터 품질 및 수량 분석 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

데이터셋의 데이터 품질 및 수량 분석

항목 상호 작용, 사용자 또는 항목 데이터 세트로 데이터를 가져온 후 Amazon Personalize 콘솔을 사용하여 데이터를 분석할 수 있습니다. 데이터 인사이트와 열 및 행 통계를 통해 데이터에 대해 학습할 수 있습니다. 또한 데이터를 개선하기 위해 어떤 조치를 취할 수 있는지 학습할 수 있습니다. 이러한 조치는 모델 교육 요구 사항과 같은 Personalize 리소스 요구 사항을 충족하는 데 도움을 줄 수 있거나 추천을 개선할 수 있습니다.

중요

Amazon Personalize 콘솔을 사용하여 작업 상호 작용 또는 작업 데이터 세트의 데이터를 분석할 수 없습니다.

권장 변경을 실시한 후에는 데이터를 다시 가져와서 문제가 해결되었는지 또는 데이터세트 통계가 개선되었는지 확인할 수 있습니다. 데이터 업데이트에 대한 자세한 내용은 데이터세트로 더 많은 훈련 데이터 가져오기섹션을 참조하세요.

인사이트가 보이지 않으면 데이터가 Personalize 데이터 기대치에 부합하는 것입니다. 도메인 데이터세트 그룹 또는 사용자 지정 데이터세트 그룹에서 데이터를 분석할 수 있습니다.

인사이트를 생성하고 통계를 계산할 때 Personalize는 익명이 아닌 사용자의 모든 대량 및 스트리밍 데이터를 고려합니다. 익명 사용자의 이벤트는 userId와 연결할 때까지 고려되지 않습니다. 자세한 내용은 익명 사용자를 위한 이벤트 기록단원을 참조하세요.

데이터 분석을 위한 필수 권한

사용자에게 Personalize에 대한 전체 액세스 권한을 부여하는 경우, 권한을 변경할 필요가 없습니다. Amazon Personalize에서 작업을 수행하는 데 필요한 권한만 사용자에게 부여하는 경우 AWS Identity and Access Management (IAM) 정책에 다음과 같은 추가 데이터 인사이트 작업이 포함되어야 합니다.

  • 개인화: CreateData InsightsJob

  • 개인화: ListData InsightsJob

  • 개인화: DescribeData InsightsJob

  • 개인화: 인사이트 GetData

데이터 인사이트

다음은 Personalize에서 생성할 수 있는 가능한 데이터 인사이트입니다.

인사이트 작업 관련 데이터세트
상호작용 데이터세트에는 X개의 상호작용만 있습니다. 모델 학습에는 최소 1,000개의 상호작용이 필요합니다. 50,000개 이상을 권장합니다. 모델을 학습시키기 전에 Y개의 고유한 상호작용 레코드을 추가로 가져오세요. 항목 상호 작용
상호작용 데이터세트에는 상호작용이 두 개 이상 있는 X명의 고유 사용자만 있습니다. 모델 교육에는 최소 25명의 사용자가 필요합니다. 1,000명 이상을 권장합니다. Y명의 추가 사용자에 대해 각각 2개 이상의 상호작용 레코드을 가져오세요. 항목 상호 작용
항목 데이터세트에 있는 X%의 항목에 상호작용 데이터세트에 상호작용이 없으므로 권장되지 않을 수 있습니다.

모든 상호작용 데이터를 가져와서 항목과 상호작용 데이터세트 간 ID가 일치하지 않는지 확인하세요. 아래 데이터세트 통계에서 항목 및 상호작용 데이터세트를 확인하여 예상되는 행의 수를 가져왔는지 확인하세요. 사용 사례 또는 레시피에서 탐색을 사용하는 경우, 상호작용 데이터가 없는 더 많은 항목을 추천하도록 탐색 구성을 수정하세요.

항목 상호 작용 및 항목
사용자 데이터세트에 있는 X%의 사용자는 상호작용 데이터세트에 상호작용이 없습니다. 이러한 사용자는 인기 항목에 대한 추천을 수신하게 됩니다.

모든 상호작용 데이터를 가져와서 사용자와 상호작용 데이터세트 간 ID가 일치하지 않는지 확인하세요. 아래 데이터세트 통계에서 사용자 및 상호작용 데이터세트를 확인하여 예상되는 행의 수를 가져왔는지 확인하세요. 더 많은 사용자가 상호작용 데이터를 확보할 수 있도록 추가 상호작용을 가져오세요.

항목 상호 작용 및 사용자
<Users or Items or Interactions> 데이터세트에 누락된 값을 포함한 X%의 행이 있습니다. 이는 추천에 부정적인 영향을 미칠 수 있습니다. 모든 필수 및 선택 필드를 70% 이상 작성하는 것이 좋습니다.

전체 기록을 추가로 가져오거나, 작성되지 않은 행이 없이 데이터를 다시 가져오거나, 누락된 값을 대체 데이터(예: 숫자 열의 평균 또는 범주형 열의 가장 일반적인 값)로 대체하여 데이터를 다시 가져옵니다.

모두 해당
<datasetType>데이터세트의 다음 열은 70% 미만 완료되었습니다. <ColumnName, ColumnName... >. 이 데이터를 교육에 포함할 경우, 추천에 부정적인 영향을 미칠 수 있습니다. null 값을 허용하는 열은 70% 이상 작성하는 것이 좋습니다.

전체 기록을 추가로 가져오거나, 작성되지 않은 행이 없이 데이터를 다시 가져오거나, 누락된 값을 대체 데이터(예: 숫자 열의 평균 또는 범주형 열의 가장 일반적인 값)로 대체하여 데이터를 다시 가져옵니다.

모두 해당
다음 (숫자) 열에는 이상값이 있습니다. <,... >. ColumnName ColumnName 특이값이 항상 문제가 되는 것은 아니지만 추천에 부정적인 영향을 미치는 경우도 있습니다.

아래 열 통계를 사용하여 해당 열의 최소값과 최대값이 예상과 일치하는지 확인하세요. 이러한 값이 예상과 일치하지 않는 경우, 해당 열의 데이터가 부정확하지 않은지 확인하고 데이터 수집 및 데이터 처리에 문제가 있는지 검토하세요.

모두
다음 열에는 1000개가 넘는 범주가 있습니다. <ColumnName,... >. ColumnName 이 데이터를 학습에 포함하면 권장 사항에 부정적인 영향을 미칠 수 있습니다: <ColumnName, ColumnName... >.

범주형 데이터에 철자 차이로 인한 중복 카테고리 등의 문제가 없는지 확인하세요. 부정확성을 모두 해결하고 데이터를 다시 가져오세요.

모두
다음 텍스트 메타데이터 열은 85% 미만으로 완료되었으며 모델 학습에 사용되지 않습니다. <ColumnName, ColumnName... >.

행을 추가로 가져오거나 해당 열의 텍스트 데이터와 함께 행을 다시 가져오세요.

Items
상호작용 데이터세트에는 10개가 넘는 고유한 이벤트 유형이 있으며, 이로 인해 모델 학습이 실패할 수 있습니다.

이벤트 유형 열에 철자 차이로 인한 이벤트 유형 중복 등 부정확한 부분이 없는지 확인하세요. 불필수 이벤트 유형을 제거하고 데이터를 다시 가져오세요.

항목 상호 작용
상호작용 데이터세트에는 모든 기록에 대한 동일한 타임스탬프가 있습니다. 사용자_세분화 레시피를 사용하고 모든 기록의 타임스탬프가 동일하면, 모델 학습은 실패합니다.

데이터에 타임스탬프 문제가 있는지 확인하고, 중복된 타임스탬프를 고유한 타임스탬프로 바꾸세요.

항목 상호 작용

데이터세트 인사이트 및 통계 보기

Personalize 데이터세트의 데이터에 대한 인사이트와 통계를 보려면 Personalize 콘솔의 데이터세트로 이동한 다음 분석 실행을 선택합니다.

인사이트와 통계를 보려면
  1. https://console.aws.amazon.com/acm-pca/home에서 Personalize 콘솔을 열고 계정에 로그인합니다.

  2. 데이터세트 그룹 페이지에서 데이터세트 그룹을 선택합니다.

  3. 탐색 창의 데이터 세트에서 데이터 분석을 선택합니다.

  4. 오른쪽 상단에서 분석 실행을 선택합니다. Personalize에서 데이터 분석을 시작합니다. 이 프로세스는 최대 15분이 걸릴 수 있습니다. 성공하면 결과가 이 페이지에 표시됩니다.

  5. 인사이트에서 다음을 사용하여 나타나는 인사이트를 필터링합니다.

    • 특정 언어가 포함된 인사이트를 찾으려면 인사이트 찾기 에 기준을 입력합니다. 텍스트를 입력하면 인사이트 또는 권장 조치에 정확한 문자열이 포함된 인사이트만 포함되도록 목록이 업데이트됩니다.

    • 데이터세트 유형별로 통찰력을 필터링하려면 모든 데이터세트를 특정 데이터세트 유형으로 변경하세요. 이 데이터세트와 관련된 인사이트만 포함하도록 목록이 업데이트됩니다.

  6. 데이터세트에 대한 데이터세트 통계를 보려면 다음과 같이 하세요.

    • 상호작용 데이터세트의 행 수, 고유 사용자, 고유 항목 등 데이터세트에 대한 일반 세부 정보 및 통계를 보려면, 데이터세트 섹션을 펼칩니다.

    • 열에 대한 자세한 통계를 보려면 데이터세트 섹션을 펼치고 열 수준 통계를 선택한 다음 해당 열의 라디오 버튼을 선택합니다.

  7. 데이터의 모든 문제를 수정하고 다시 가져온 다음, 다른 분석을 실행하여 확인합니다. 다시 데이터 가져오기에 대한 자세한 내용은 데이터세트로 더 많은 훈련 데이터 가져오기섹션을 참조하세요.