Étape 4 : charger des données dans HDFS

Dans cette étape, vous allez copier un fichier de données dans Hadoop Distributed File System (HDFS), puis créer une table Hive externe qui mappe à ce fichier de données.

Télécharger l'échantillon de données

Téléchargez l'archive de l'échantillon de données (features.zip) :


wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip

Extrayez le fichier features.txt de l'archive :
```
unzip features.zip
```

Affichez les premières lignes du fichier features.txt :


head features.txt

Le résultat doit ressembler à ceci :


1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794
875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7
1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10
26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681
1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605
1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558
1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024
533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0
829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671
541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98

Le features.txt fichier contient un sous-ensemble de données du Bureau des noms géographiques des États-Unis d'Amérique (http://geonames.usgs). gov/domestic/download_data.htm). Les champs de chaque ligne représentent les éléments suivants :

ID de fonction (identifiant unique)
Nom
Classe (lac, forêt, rivière, etc.)
État
Latitude (degrés)
Longitude (degrés)
Altitude (pieds)

A partir d'une invite de commande, entrez la commande suivante :
```
hive
```
L'invite de commande devient : hive>.

Entrez l'instruction HiveQL suivante pour créer une table Hive native :


CREATE TABLE hive_features
    (feature_id             BIGINT,
    feature_name            STRING ,
    feature_class           STRING ,
    state_alpha             STRING,
    prim_lat_dec            DOUBLE ,
    prim_long_dec           DOUBLE ,
    elev_in_ft              BIGINT)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '|'
    LINES TERMINATED BY '\n';

Entrez l'instruction HiveQL suivante pour charger la table avec les données :
```
LOAD DATA
LOCAL
INPATH './features.txt'
OVERWRITE
INTO TABLE hive_features;
```
Vous avez maintenant une table Hive native remplie des données du fichier features.txt. Pour vérifier, entrez l'instruction HiveQL suivante :
```
SELECT state_alpha, COUNT(*)
FROM hive_features
GROUP BY state_alpha;
```
La sortie doit afficher une liste d'États et le nombre d'entités géographiques dans chacun d'eux.

Étape suivante

Étape 5 : copier des données dans DynamoDB

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Étape 3 : se connecter au nœud leader

Étape 5 : copier des données dans DynamoDB