Langkah 4: Muat data ke HDFS - Amazon DynamoDB

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah 4: Muat data ke HDFS

Pada langkah ini, Anda akan menyalin file data ke Hadoop Distributed File System (HDFS), lalu membuat tabel Hive eksternal yang dipetakan ke file data.

Mengunduh data sampel
  1. Unduh arsip data sampel (features.zip):

    wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
  2. Ekstrak file features.txt dari arsip:

    unzip features.zip
  3. Lihat beberapa baris pertama dari file features.txt:

    head features.txt

    Hasilnya akan tampak mirip dengan ini:

    1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794 875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7 1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10 26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681 1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605 1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558 1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024 533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0 829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671 541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98

    File features.txt berisi subset data dari United States Board on Geographic Names (http://geonames.usgs.gov/domestic/download_data.htm). Bidang di setiap baris mewakili berikut ini:

    • ID Fitur (pengidentifikasi unik)

    • Nama

    • Kelas (danau; hutan; aliran; dan sebagainya)

    • Negara Bagian

    • Garis lintang (derajat)

    • Garis bujur (derajat)

    • Tinggi (dalam kaki)

  4. Di prompt perintah, masukkan perintah berikut:

    hive

    Prompt perintah berubah menjadi ini: hive>

  5. Masukkan pernyataan HiveQL berikut untuk membuat tabel Hive asli:

    CREATE TABLE hive_features (feature_id BIGINT, feature_name STRING , feature_class STRING , state_alpha STRING, prim_lat_dec DOUBLE , prim_long_dec DOUBLE , elev_in_ft BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
  6. Masukkan pernyataan HiveQL berikut untuk memuat tabel dengan data:

    LOAD DATA LOCAL INPATH './features.txt' OVERWRITE INTO TABLE hive_features;
  7. Anda sekarang memiliki tabel Hive asli yang diisi dengan data dari file features.txt. Untuk memverifikasi, masukkan pernyataan HiveQL berikut:

    SELECT state_alpha, COUNT(*) FROM hive_features GROUP BY state_alpha;

    Output akan menunjukkan daftar negara bagian dan jumlah fitur geografis di masing-masing tempat.

Langkah berikutnya

Langkah 5: Salin data ke DynamoDB