ステップ 4: HDFS にデータをロードします - Amazon DynamoDB

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ステップ 4: HDFS にデータをロードします

このステップでは、データファイルを Hadoop Distributed File System (HDFS) にコピーし、データファイルにマップする外部 Hive テーブルを作成します。

サンプルデータをダウンロードします
  1. サンプルデータアーカイブ (features.zip) のダウンロード:

    wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
  2. アーカイブからの features.txt ファイルの抽出:

    unzip features.zip
  3. features.txt ファイルの最初の数行を表示:

    head features.txt

    この結果は以下のようになります。

    1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794 875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7 1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10 26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681 1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605 1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558 1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024 533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0 829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671 541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98

    features.txt ファイルには、米国地名委員会 (http://geonames.usgs.gov/domestic/download_data.htm) で提供されるデータのサブセットが含まれます。ここでの各行のフィールドは、次を表しています。

    • フィーチャ ID (固有の識別子)

    • 名前

    • クラス (湖、森林、小川、その他)

    • 状態

    • 緯度 (度)

    • 経度 (度)

    • 高度 (フィート)

  4. コマンドプロンプトに次のコマンドを入力します。

    hive

    コマンドプロンプトがこのように変わります: hive>

  5. 次の HiveQL ステートメントを入力して、ネイティブ Hive テーブルを作成します。

    CREATE TABLE hive_features (feature_id BIGINT, feature_name STRING , feature_class STRING , state_alpha STRING, prim_lat_dec DOUBLE , prim_long_dec DOUBLE , elev_in_ft BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
  6. 次の HiveQL ステートメントを入力して、データとともにテーブルをロードします。

    LOAD DATA LOCAL INPATH './features.txt' OVERWRITE INTO TABLE hive_features;
  7. これで、features.txt ファイルからのデータが格納された、ネイティブ Hive テーブルが用意できます。これを確認するには、次の HiveQL ステートメントを入力します。

    SELECT state_alpha, COUNT(*) FROM hive_features GROUP BY state_alpha;

    出力には、州の一覧といくつかの地理的特徴が表示されます。

次のステップ

ステップ 5: データを DynamoDB にコピーします