Etapa 4: carregar dados no HDFS

Nesta etapa, você poderá copiar um arquivo de dados para o Hadoop Distributed File System (HDFS) e, em seguida, criar uma tabela do Hive externa que mapeia para o arquivo de dados.

Baixar os dados de amostra

Faça download do arquivo de dados de exemplo (features.zip):


wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip

Extraia o arquivo features.txt do arquivo:
```
unzip features.zip
```

Visualize as primeiras linhas do arquivo features.txt:


head features.txt

O resultado deve ter a seguinte aparência:


1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794
875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7
1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10
26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681
1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605
1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558
1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024
533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0
829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671
541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98

O arquivo features.txt contém um subconjunto de dados do United States Board on Geographic Names (http://geonames.usgs.gov/domestic/download_data.htm). Os campos em cada linha representam o seguinte:

ID do recurso (identificador exclusivo)
Nome
Classe (lago; floresta; riacho; e assim por diante)
State
Latitude (graus)
Longitude (graus)
Altura (em pés)

No prompt de comando, digite o seguinte comando:
```
hive
```
O prompt de comando muda para: hive>

Insira a seguinte instrução HiveQL para criar uma tabela nativa do Hive:


CREATE TABLE hive_features
    (feature_id             BIGINT,
    feature_name            STRING ,
    feature_class           STRING ,
    state_alpha             STRING,
    prim_lat_dec            DOUBLE ,
    prim_long_dec           DOUBLE ,
    elev_in_ft              BIGINT)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '|'
    LINES TERMINATED BY '\n';

Insira a seguinte instrução HiveQL para carregar a tabela com dados:


LOAD DATA
LOCAL
INPATH './features.txt'
OVERWRITE
INTO TABLE hive_features;

Você agora tem uma tabela nativa do Hive preenchida com os dados do arquivo features.txt. Para verificar, insira a seguinte instrução HiveQL:
```
SELECT state_alpha, COUNT(*)
FROM hive_features
GROUP BY state_alpha;
```
A saída deve mostrar uma lista de estados e o número de recursos geográficos em cada uma delas.

Próxima etapa

Etapa 5: copiar dados para o DynamoDB

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Etapa 3: conectar ao nó líder

Etapa 5: copiar dados para o DynamoDB