データセット内の欠落値を検索して埋める - AWS Glue Studio

データセット内の欠落値を検索して埋める

FillMissingValues 変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習 (ML) モデルのトレーニングに使用されます。増分のデータセットを使用する場合、増分の各セットが ML モデルのトレーニングデータとして使用されるため、結果はそれほど正確ではない可能性があります。

ジョブ図で FillMissingValues 変換ノードを使用するには
  1. (オプション) ビジュアルエディタの上部のツールバーで [Transform] (変換) を選択します。その後、必要な場合は [FillMissingValues] を選択して、新しい変換をジョブ図に追加します。

  2. [Node properties] (ノードのプロパティ) タブで、ジョブ図のノードの名前を入力します。ノードの親がまだ選択されていない場合、[Node parents] (ノードの親) リストから、変換の入力ソースとして使用するノードを選択します。

  3. [Transform] (変換) タブを選択します。

  4. [Data field] (データフィールド) で、欠落値を分析するソースデータから、列名またはフィールド名を選択します。

  5. (オプション) [New field name] (新しいフィールド名) フィールドに、フィールドの名前を入力します。このフィールドは、分析したフィールドの推定置換値を保持する各レコードに追加されます。分析したフィールドに欠落値がない場合、その分析したフィールドの値が新しいフィールドにコピーされます。

    フィールドの名前を指定しない場合、デフォルトの名前は、分析した列に _filled を追加した名前になります。例えば、[Data field] (データフィールド) に「Age」と入力し、[New field name] (新しいフィールド名) に値を指定しない場合、Age_filled という名前の新しいフィードが各レコードに追加されます。

  6. (オプション) 変換ノードのプロパティを設定した後、ノードの詳細パネルの [Output schema] (出力スキーマ) タブを選択して、データ用に変更されたスキーマを表示できます。ジョブ内の任意のノードに対してこのタブを初めて選択すると、データにアクセスする IAM ロールを指定するよう求められます。[Job details] (ジョブの詳細) タブで IAM ロールをまだ指定していない場合、ここで IAM ロールを入力するよう求められます。

  7. (オプション) ノードおよび変換のプロパティを設定した後、ノードの詳細パネルの [Data preview] (データのプレビュー) タブを選択して、変更されたデータセットをプレビューできます。ジョブ内の任意のノードに対してこのタブを初めて選択すると、データにアクセスする IAM ロールを指定するよう求められます。この機能を使用するには費用がかかり、IAM ロールを指定するとすぐに請求が開始します。