データセット内のデータの品質と量を分析する - Amazon Personalize

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセット内のデータの品質と量を分析する

アイテムインタラクション、ユーザー、またはアイテムデータセットにデータをインポートしたら、Amazon Personalize コンソールを使用してデータを分析できます。データインサイトや列と行の統計からデータについて知ることができます。また、データを改善するためにどのようなアクションを取ればよいのかを知ることができます。これらのアクションは、モデルのトレーニングの要件などの Amazon Personalize のリソース要件を満たすのに役立つ場合や、レコメンデーションの改善につながる場合があります。

重要

Amazon Personalize コンソールを使用して、アクションインタラクションまたはアクションデータセットのデータを分析することはできません。

推奨される変更を加えたら、データを再度インポートして、問題が解決されたか、またはデータセットの統計が改善されたかを確認できます。データの更新については、「より多くのトレーニングデータをデータセットにインポートする」を参照してください。

インサイトが見当たらない場合は、データは Amazon Personalize データの期待に沿っているということです。ドメインデータセットグループまたはカスタムデータセットグループのデータを分析できます。

Amazon Personalize は、インサイトを生成して統計を計算する際、非匿名ユーザーからのすべての一括データおよびストリーミングデータを考慮します。匿名ユーザーからのイベントは、userId に関連付けるまで考慮されません。詳細については、「匿名ユーザー向けのイベントの記録」を参照してください。

データ分析に必要なアクセス権限

Amazon Personalize へのフルアクセスをユーザーに付与する場合、アクセス権限を変更する必要はありません。Amazon Personalize でタスクを実行するために必要なアクセス許可のみをユーザーに付与する場合、 AWS Identity and Access Management (IAM) ポリシーに次の追加のデータインサイトアクションを含める必要があります。

  • パーソナライズ:CreateDataInsightsJob

  • パーソナライズ:ListDataInsightsJob

  • パーソナライズ:DescribeDataInsightsJob

  • Personalize:GetDataInsight

データインサイト

Amazon Personalize で生成できる、考えられるデータインサイトは次のとおりです。

インサイト アクション 関連するデータセット
インタラクションデータセットには X 個のインタラクションしかありません。モデルのトレーニングには、1,000 回以上のインタラクションが必要です。50,000 件以上のレコメンデーションを行います。 モデルをトレーニングする前に、Y 個の一意のインタラクションレコードを追加でインポートします。 アイテムインタラクション
インタラクションデータセットには、2 つ以上のインタラクションを持つ一意のユーザーが X 人しかいません。モデルのトレーニングには、このようなユーザーが少なくとも 25 人必要です。1,000 件以上のレコメンデーションを行います。 Y 人の追加ユーザーについて、それぞれ 2 つ以上のインタラクションレコードをインポートします。 アイテムインタラクション
アイテムデータセット内の X% の商品にはインタラクションデータセット内でインタラクションがないため、推奨されない可能性があります。

インタラクションデータをすべてインポートして、アイテムとインタラクションデータセットの間で ID が一致していないかどうかを確認してください。以下の商品とインタラクションデータセットのデータセットのデータセット統計をチェックして、必要な行数がインポートされていることを確認してください。ユースケースやレシピで探索を使用している場合は、探索設定を変更して、インタラクションデータを含まない商品をさらに推奨するようにします。

アイテムインタラクションとアイテム
ユーザーデータセットのユーザーの X% は、インタラクションデータセットにインタラクションがありません。これらのユーザーには、人気商品のレコメンデーションが届きます。

インタラクションデータをすべてインポートして、ユーザーとインタラクションデータセットの間に ID が不一致がないかを確認してください。以下のユーザーとインタラクションデータセットのデータセット統計を確認して、必要な行数がインポートされていることを確認してください。追加のインタラクションをインポートして、より多くのユーザーがインタラクションデータを取得できるようにします。

アイテムインタラクションとユーザー
<Users or Items or Interactions> データセットには値が欠落した業が X% あります。これはレコメンデーションに悪影響を及ぼす可能性があります。必須フィールドとオプションフィールドはすべて 70% 以上入力することを推奨します。

完全なレコードを追加インポートするか、不完全な行がないデータを再度インポートするか、欠損値を代替データ (数値列の平均値やカテゴリ列の最も一般的な値など) に置き換えてデータを再度インポートします。

すべて
<datasetType > データセットの次の列 (複数可) は、完了率が 70% 未満です: <ColumnName、 ColumnName...>。このデータがトレーニングに含まれている場合、レコメンデーションに悪影響を及ぼす可能性があります。NULL 値を許容する列は 70% 以上入力することを推奨します。

完全なレコードを追加インポートするか、不完全な行がないデータを再度インポートするか、欠損値を代替データ (数値列の平均値やカテゴリ列の最も一般的な値など) に置き換えてデータを再度インポートします。

すべて
次の (数値) 列 (複数可) には外れ値があります: <ColumnName, ColumnName...>。外れ値は必ずしも問題とは限りませんが、レコメンデーションに悪影響を及ぼすことがあります。

以下の列統計を使用して、これらの列の最小値と最大値が期待どおりかどうかを確認してください。これらの値が想定外の場合は、これらの列のデータに誤りがないかを確認し、データ収集とデータ処理に問題がないかを確認します。

すべて
次の列 (複数可) には、<ColumnName、 ColumnName...> の 1000 を超えるカテゴリがあります。このデータがトレーニングに含まれている場合、<ColumnName, ColumnName...> というレコメンデーションに悪影響を及ぼす可能性があります。

カテゴリデータをチェックして、スペルの違いによるカテゴリの重複などの問題がないかを確認します。誤りがあれば解決し、データをもう一度インポートします。

すべて
次のテキストメタデータ列 (複数可) は 85% 未満で、モデルトレーニングでは使用されません: <ColumnName, ColumnName...>。

追加の行をインポートするか、これらの列のテキストデータを含む行を再度インポートします。

項目
インタラクションデータセットには 10 種類以上の一意のイベントタイプがあるため、モデルのトレーニングが失敗する可能性があります。

イベントタイプ列をチェックして、スペルの違いによるイベントタイプの重複などの不正確な点がないかを確認します。不要なイベントタイプを削除して、データをもう一度インポートします。

アイテムインタラクション
インタラクションデータセットのタイムスタンプはすべてのレコードで同じです。USER_SEGMENTATION レシピを使用し、すべてのレコードのタイムスタンプが同じ場合、モデルのトレーニングは失敗します。

データにタイムスタンプの問題がないか確認し、重複するタイムスタンプを一意のタイムスタンプに置き換えます。

アイテムインタラクション

データセットのインサイトと統計を表示する

Amazon Personalize データセット内のデータに関するインサイトと統計を表示するには、Amazon Personalize コンソールでデータセットに移動し、[分析を実行] を選択します。

インサイトと統計を表示するには
  1. https://console.aws.amazon.com/personalize/home で Amazon Personalize コンソールを開き、アカウントにサインインします。

  2. [データセットグループ] のページで、データセットグループを選択します。

  3. [ナビゲーション] ペインの [データセット] から、[データ分析] を選択します。

  4. 右上の [分析を実行] を選択します。Amazon Personalize がデータの分析を開始します。これには最大 15 分かかることがあります。成功すると、結果がこのページに表示されます。

  5. インサイトで以下を使用して表示されるインサイトを絞り込みます。

    • 特定の言語を含むインサイトを検索するには、「インサイトを探す」に条件を入力します。テキストを入力すると、リストが更新され、インサイトまたは推奨されたアクションとまったく同じ文字列を含むインサイトのみが表示されます。

    • インサイトをデータセットタイプでフィルタリングするには、[すべてのデータセット] を特定のデータセットタイプに変更します。リストが更新され、このデータセットに関連するインサイトのみが含まれるようになります。

  6. データセットのデータセット統計を表示するには、次の手順を実行します。

    • インタラクションデータセットの行、一意のユーザー、一意の商品の数など、データセットに関する一般的な詳細と統計情報を表示するには、データセットのセクションを展開します。

    • 列の詳細な統計情報を表示するには、データセットセクションを展開し、[列レベルの統計] を選択して、列のラジオボタンを選択します。

  7. データ内の問題を修正して再度インポートし、別の分析を実行して検証します。データのインポートの詳細については、「より多くのトレーニングデータをデータセットにインポートする」を参照してください。