分析を使用してデータを探索する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

分析を使用してデータを探索する

注記

Canvas SageMaker 分析は、表形式のデータセットに基づいて構築されたモデルにのみ使用できます。マルチカテゴリテキスト予測モデルも対象外です。

Amazon SageMaker Canvas の分析を使用すると、モデルを構築する前にデータセットを調べ、すべての変数に関するインサイトを得ることができます。相関行列を使用して、データセット内の特徴量間の関係を判断できます。この手法を使用すると、データセットを 2 つ以上の値間の相関関係を示すマトリックスにまとめることができます。これにより、特定のデータセットのパターンを特定して視覚化し、高度なデータ分析に役立てることができます。

行列には、各特徴量間の相関が正、負、または中立として表示されます。モデルを構築する際は、相互に高い相関関係を持つ特徴量を含めます。相関関係がほとんどないか、まったくない特徴量はモデルとは無関係な場合があり、モデルを構築する際はそれらの特徴量を削除できます。

SageMaker Canvas で相関行列の使用を開始するには、次のセクションを参照してください。

相関行列を作成する

SageMaker Canvas アプリケーションのビルドタブでモデルを構築する準備をするときに、相関行列を作成できます。

モデルの作成を開始する手順については、「モデルの構築」を参照してください。

SageMaker Canvas アプリケーションでモデルの準備を開始したら、次の操作を行います。

  1. [ビルド] タブで、[データビジュアライザー] を選択します。

  2. 次に、[分析] を選択します。

  3. [相関行列] を選択します。

次のスクリーンショットのような視覚化が表示されます。最大 15 列のデータセットが相関行列にまとめられています。

Canvas アプリケーションの相関行列のスクリーンショット。

相関行列を作成したら、次のようにしてカスタマイズできます。

1. 列を選択する

[列] で行列に含める列を選択します。データセット内の最大 15 列を比較できます。

注記

相関行列には、数値、カテゴリ、またはバイナリ列タイプを使用できます。相関行列は datetime 列タイプやテキストデータ列タイプをサポートしていません。

相関行列に列を追加または削除するには、[列] パネルで列を選択または選択解除します。パネルから行列に列を直接ドラッグアンドドロップすることもできます。データセットに多数の列がある場合は、[検索列] バーで列を検索できます。

データ型で列をフィルタリングするには、ドロップダウンリストを選択し、すべての 数値 、またはカテゴリ を選択します。[すべて] を選択するとデータセットのすべての列が表示されるのに対し、[数値] フィルターと [カテゴリ] フィルターでは、データセットの数値列またはカテゴリ列のみが表示されます。バイナリ列タイプは数値フィルターまたはカテゴリフィルターに含まれていることに注意してください。

最適なデータインサイトを得るには、ターゲット列を相関行列に含めます。相関行列にターゲット列を含めると、その列は行列の最後の特徴量としてターゲットシンボルとともに表示されます。

2. 相関タイプを選択する

SageMaker Canvas は、さまざまな相関タイプ 、または列間の相関を計算するためのメソッドをサポートしています。

相関タイプを変更するには、前のセクションで説明した [列] フィルターを使用して、目的の列タイプと列をフィルターします。[相関タイプ] はサイドパネルに表示されます。数値比較では、[ピアソン] または [スピアマン] のいずれかを選択できます。カテゴリ比較では、相関タイプは [MI] に設定されます。カテゴリおよび混在比較では、相関タイプは [スピアマン & MI] に設定されます。

数値列のみを比較する行列の場合、相関タイプはピアソンまたはスピアマンのいずれかになります。ピアソン測度は 2 つの連続変数間の線形関係を評価します。スピアマン測度は、2 つの変数間の単調関係を評価します。ピアソンとスピアマンの相関スケールの範囲は -1~1 で、スケールの両端は完全な相関 (直接の 1:1 関係) を示し、0 は相関がないことを示します。(散布図の視覚化からわかるように) データの関係がより線形である場合は、ピアソンを選択します。データが線形でない場合や、線形関係と単調関係が混在している場合は、スピアマンを選択します。

カテゴリ列のみを比較する行列の場合、相関タイプは相互情報量分類 (MI) に設定されます。MI 値は 2 つの確率変数間の相互依存の尺度を表します。MI の測定値は 0~1 のスケールで、0 は相関関係がないことを示し、1 は完全な相関関係を示します。

数値列とカテゴリ列が混在して比較される行列の場合、相関タイプ [スピアマン & MI] はスピアマンと MI の相関タイプを組み合わせたものです。2 つの数値列間の相関関係の場合、行列にスピアマン値が表示されます。数値列とカテゴリ列、または 2 つのカテゴリ列の間の相関関係の場合、行列には MI 値が表示されます。

最後に、相関関係は必ずしも因果関係を示しているわけではないことに注意してください。相関値が強いということは、2 つの変数間に関係があることを示すだけで、変数には因果関係がない可能性があります。モデルを構築する際は偏りがないように、対象列を注意深く確認してください。

3. 相関関係をフィルタリングする

サイドパネルで [相関関係フィルター] 機能を使用して、行列に含める相関値の範囲をフィルタリングできます。例えば、正または中立の相関関係を持つ特徴量のみをフィルタリングする場合は、[最小] を 0 に、[最大] を 1 に設定します (有効な値は -1~1)。

スピアマン比較およびピアソン比較では、[相関関係フィルター] の範囲を -1~1 の範囲で設定できます。0 は相関がないことを意味し、-1 と 1 は変数にそれぞれ強い負または正の相関があることを意味します。

MI 比較の場合、相関範囲は 0~1 です。0 は相関がないことを意味し、1 は変数に正または負の強い相関関係があることを意味します。

各特徴量は、それ自体と完全な相関関係 (1) を持っています。そのため、相関行列の一番上の行は常に 1 になります。これらの値を除外するには、フィルターを使用して [最大] を 1 未満に設定します。

行列が数値列とカテゴリ列を組み合わせて比較し、[スピアマン & MI] の相関タイプを使用する場合、カテゴリ x の数値相関およびカテゴリ x のカテゴリ相関 (MI 測度を使用) は 0~1 のスケールで、数値 x の数値相関 (スピアマン測度を使用) は -1~1 のスケールであることに注意してください。対象の相関関係を注意深く見直して、各値の計算に使用されている相関タイプを理解していることを確認してください。

4. 視覚化方法を選択する

サイドパネルの [視覚化方法] を使用して、行列の視覚化方法を変更できます。数値視覚化方法を選択して相関関係 (ピアソン、スピアマン、MI) 値を表示するか、サイズ視覚化方法を選択して、異なるサイズと色のドットで相関関係を視覚化します。[サイズ] を選択した場合、行列の上の特定の点にカーソルを合わせると、実際の相関値を確認できます。

5. カラーパレットを選択する

サイドパネルの [色の選択] を使用して、行列の負の相関関係から正の相関のスケールに使用するカラーパレットを変更できます。代替カラーパレットの 1 つを選択して、行列で使用する色を変更します。