Spigot を使用してデータセットをサンプリングする - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Spigot を使用してデータセットをサンプリングする

ジョブで実行される変換をテストするには、データのサンプルを取得して、変換が意図したとおりに機能することを確認します。Spigot 変換では、データセットから Amazon S3 バケットの JSON ファイルにレコードのサブセットが書き出されます。データのサンプリングには、ファイルの最初からの特定のレコード数、またはレコードの選択に使用される確率係数を使用します。

Spigot 変換ノードをジョブ図に追加するには
  1. (オプション) リソースパネルを開いて、[スピゴット] を選択し、必要に応じてジョブ図に新しい変換を追加します。

  2. [Node properties] (ノードのプロパティ) タブで、ジョブ図のノードの名前を入力します。ノードの親がまだ選択されていない場合は、[Node parents] (ノードの親) リストから、変換の入力ソースとして使用するノードを選択します。

  3. ノードの詳細パネルで [Transform] (変換) タブを選択します。

  4. Amazon S3 パスを入力するか、[Browse S3] (S3 をブラウズ) を選択して、Amazon S3 内の場所を選択します。これは、ジョブによりデータサンプルを含む JSON ファイルが書き込まれる場所です。

  5. サンプリング方法に関する情報を入力します。データセットの最初から書き込むレコード数の値、および任意のレコードを選択する確率のしきい値 (最大値が 1 の 10 進値として入力) を指定できます。

    例えば、データセットから最初の 50 レコードを書き込むには、レコード数を 50、確率のしきい値を 1 (100%) に設定します。