Carregar dados usando o AWS DataSync - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Carregar dados usando o AWS DataSync

AWS DataSync é um serviço de transferência de dados on-line que simplifica, automatiza e acelera o processo de movimentação de dados entre seus serviços de armazenamento e armazenamento locais ou entre serviços AWS de armazenamento. AWS DataSync oferece suporte a uma variedade de sistemas de armazenamento local, como o Hadoop Distributed File System (HDFS), servidores de NAS arquivos e armazenamento autogerenciado de objetos.

A maneira mais comum de colocar dados em um cluster é fazer o upload dos dados para o Amazon S3 e usar os recursos integrados da Amazon EMR para carregar os dados no seu cluster.

DataSync pode ajudá-lo a realizar as seguintes tarefas:

  • Replique HDFS em seu cluster Hadoop para o Amazon S3 para continuidade dos negócios

  • Copie HDFS para o Amazon S3 para preencher seus data lakes

  • Transfira dados entre seu cluster Hadoop HDFS e o Amazon S3 para análise e processamento

Para fazer upload de dados para seu bucket do S3, primeiro você implanta um ou mais DataSync agentes na mesma rede do seu armazenamento local. O agente é uma máquina virtual (VM) usada para ler ou gravar dados em um local autogerenciado. Em seguida, você ativa seus agentes no bucket do S3 Conta da AWS e Região da AWS onde ele está localizado.

Depois que o agente é ativado, crie um local de origem para o armazenamento on-premises, um local de destino para o bucket do S3 e uma tarefa. Uma tarefa é um conjunto de dois locais (origem e destino) e um conjunto de opções padrão que você usa para controlar o comportamento da tarefa.

Finalmente, você executa sua DataSync tarefa de transferir dados da origem para o destino.

Para obter mais informações, consulte Conceitos básicos do AWS DataSync.