As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Etapa 4: carregar dados no HDFS
Nesta etapa, você poderá copiar um arquivo de dados para o Hadoop Distributed File System (HDFS) e, em seguida, criar uma tabela do Hive externa que mapeia para o arquivo de dados.
Baixar os dados de amostra
-
Faça download do arquivo de dados de exemplo (
features.zip
):wget https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/samples/features.zip
-
Extraia o arquivo
features.txt
do arquivo:unzip features.zip
-
Visualize as primeiras linhas do arquivo
features.txt
:head features.txt
O resultado deve ter a seguinte aparência:
1535908|Big Run|Stream|WV|38.6370428|-80.8595469|794 875609|Constable Hook|Cape|NJ|40.657881|-74.0990309|7 1217998|Gooseberry Island|Island|RI|41.4534361|-71.3253284|10 26603|Boone Moore Spring|Spring|AZ|34.0895692|-111.410065|3681 1506738|Missouri Flat|Flat|WA|46.7634987|-117.0346113|2605 1181348|Minnow Run|Stream|PA|40.0820178|-79.3800349|1558 1288759|Hunting Creek|Stream|TN|36.343969|-83.8029682|1024 533060|Big Charles Bayou|Bay|LA|29.6046517|-91.9828654|0 829689|Greenwood Creek|Stream|NE|41.596086|-103.0499296|3671 541692|Button Willow Island|Island|LA|31.9579389|-93.0648847|98
O arquivo
features.txt
contém um subconjunto de dados do United States Board on Geographic Names (http://geonames.usgs.gov/domestic/download_data.htm). Os campos em cada linha representam o seguinte: -
ID do recurso (identificador exclusivo)
-
Name (Nome)
-
Classe (lago; floresta; riacho; e assim por diante)
-
Estado
-
Latitude (graus)
-
Longitude (graus)
-
Altura (em pés)
-
-
No prompt de comando, digite o seguinte comando:
hive
O prompt de comando muda para:
hive>
-
Insira a seguinte instrução HiveQL para criar uma tabela nativa do Hive:
CREATE TABLE hive_features (feature_id BIGINT, feature_name STRING , feature_class STRING , state_alpha STRING, prim_lat_dec DOUBLE , prim_long_dec DOUBLE , elev_in_ft BIGINT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
-
Insira a seguinte instrução HiveQL para carregar a tabela com dados:
LOAD DATA LOCAL INPATH './features.txt' OVERWRITE INTO TABLE hive_features;
-
Você agora tem uma tabela nativa do Hive preenchida com os dados do arquivo
features.txt
. Para verificar, insira a seguinte instrução HiveQL:SELECT state_alpha, COUNT(*) FROM hive_features GROUP BY state_alpha;
A saída deve mostrar uma lista de estados e o número de recursos geográficos em cada uma delas.
Próxima etapa
Etapa 5: copiar dados para o DynamoDB