Étape 4 : charger des données dans HDFS - Amazon DynamoDB

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étape 4 : charger des données dans HDFS

Dans cette étape, vous allez copier un fichier de données dans Hadoop Distributed File System (HDFS), puis créer une table Hive externe qui mappe à ce fichier de données.

Télécharger l'échantillon de données
  1. Téléchargez l'archive de l'échantillon de données (features.zip) :

    wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
  2. Extrayez le fichier features.txt de l'archive :

    unzip features.zip
  3. Affichez les premières lignes du fichier features.txt :

    head features.txt

    Le résultat doit ressembler à ceci :

    1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794 875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7 1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10 26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681 1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605 1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558 1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024 533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0 829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671 541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98

    Le fichier features.txt contient un sous-ensemble de données du United States Board on Geographic Names (http://geonames.usgs.gov/domestic/download_data.htm). Les champs de chaque ligne représentent les éléments suivants :

    • ID de fonction (identifiant unique)

    • Nom

    • Classe (lac, forêt, rivière, etc.)

    • État

    • Latitude (degrés)

    • Longitude (degrés)

    • Altitude (pieds)

  4. A partir d'une invite de commande, entrez la commande suivante :

    hive

    L'invite de commande devient : hive>.

  5. Entrez l'instruction HiveQL suivante pour créer une table Hive native :

    CREATE TABLE hive_features (feature_id BIGINT, feature_name STRING , feature_class STRING , state_alpha STRING, prim_lat_dec DOUBLE , prim_long_dec DOUBLE , elev_in_ft BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
  6. Entrez l'instruction HiveQL suivante pour charger la table avec les données :

    LOAD DATA LOCAL INPATH './features.txt' OVERWRITE INTO TABLE hive_features;
  7. Vous avez maintenant une table Hive native remplie des données du fichier features.txt. Pour vérifier, entrez l'instruction HiveQL suivante :

    SELECT state_alpha, COUNT(*) FROM hive_features GROUP BY state_alpha;

    La sortie doit afficher une liste d'États et le nombre d'entités géographiques dans chacun d'eux.

Étape suivante

Étape 5 : copier des données dans DynamoDB