データ変換ノードの編集 - AWS Glue Studio

データ変換ノードの編集

AWS Glue Studio には、データを処理するために使用できる一式の組み込み変換が用意されています。データは、ジョブ図内のあるノードから DynamicFrame と呼ばれるデータ構造の別のノードに渡されます。これは、Apache Spark SQL DataFrame の拡張機能です。

事前に設定されたジョブ図では、データソースおよびデータターゲットノードの間に、Transform - ApplyMapping ノードを使用できます。この変換ノードを設定すると、データを修正したり、他の変換を使用できます。

AWS Glue Studio を用いて、次のbuilt-in 変換が利用可能です。

  • ApplyMapping: データソースのデータプロパティキーをマッピングし、データターゲット中のデータプロパティキーをデータ化します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。

  • SelectFields: 保持したいデータプロパティキーを選択します。

  • DropFields: 削除したいデータプロパティキーを選択します。

  • RenameField: 単一のデータプロパティキーの名前を変更します。

  • Spigot:Amazon S3 バケットにデータのサンプルを書き込みます。

  • Join: 指定したデータプロパティキー上の比較フレーズを使用して、2 つのデータセットを 1 つに結合します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。

  • SplitFields: データプロパティキーを 2 つの DynamicFrames に分割します。出力は DynamicFrames のコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。

  • SelectFromCollectionDynamicFrame のコレクションから を 1 つの DynamicFrames を選択します。出力は選択された DynamicFrame です。

  • [FillMissingValues]:欠落値があるデータセットの記録を配置し、代入によって決定された提案値を用いた新しいフィールドを追加します。

  • Filter: フィルター条件に基づいて、データセットを 2 つに分割します。

  • DropNullFields: 列のすべての値が 'null' の場合、データセットから列を削除します。

  • SQL:SparkSQL コードをテキスト入力フィールドに入力して、データを変換するために SQL クエリを使用します。出力は、単一の DynamicFrame です。

  • Aggregate: 選択したフィールドと行上で計算 (平均、合計、最小、最大など) を実行し、新しく計算された値で新しいフィールドを作成します。

  • Custom transform: カスタム transforms を使用するために、テキスト入力フィールドにコードを入力します。出力は、DynamicFrames のコレクションです。