Configurando AWS DataSync transferências do HDFS - AWS DataSync

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurando AWS DataSync transferências do HDFS

Para transferir dados do Sistema de Arquivos Distribuído do Hadoop (HDFS), você deve criar um AWS DataSync local de transferência.

Acessando clusters HDFS

Para se conectar ao seu cluster HDFS, DataSync usa um agente que você implanta próximo ao seu cluster HDFS. Para saber mais sobre DataSync agentes, consulteTrabalhando com AWS DataSync agentes. O DataSync agente atua como um cliente HDFS e se comunica com NameNodes e DataNodes em seus clusters.

Quando você inicia uma tarefa, DataSync consulta NameNode a localização dos arquivos e pastas no cluster. Se a localização do HDFS estiver configurada como origem, então DataSync lê os arquivos e os dados da pasta DataNodes no cluster e copia os dados para o destino. Se a localização do HDFS estiver configurada como destino, então DataSync grava arquivos e pastas do destino para o DataNodes no cluster. Antes de executar sua DataSync tarefa, verifique a conectividade do agente com o cluster HDFS. Para obter mais informações, consulte Testando a conexão do seu agente com um sistema de armazenamento.

Autenticação

Ao se conectar a um cluster HDFS, DataSync suporta autenticação simples ou autenticação Kerberos. Para usar a autenticação simples, forneça o nome de usuário de um usuário com direitos de leitura e gravação no cluster HDFS. Para usar a autenticação Kerberos, forneça um arquivo de configuração Kerberos, um arquivo de tabela de chaves Kerberos (keytab) e um nome principal do Kerberos. As credenciais do principal Kerberos devem estar no arquivo keytab fornecido.

Criptografia

Ao usar a autenticação Kerberos, DataSync oferece suporte à criptografia de dados à medida que eles são transmitidos entre o DataSync agente e seu cluster HDFS. Criptografe seus dados usando as configurações de Qualidade de Proteção (QOP) em seu cluster HDFS e especificando as configurações de QOP ao criar sua localização HDFS. A configuração QOP inclui configurações para proteção de transferência de dados e proteção RPC (Remote Procedure Call).

DataSyncsuporta os seguintes tipos de criptografia Kerberos:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Você também pode configurar clusters do HDFS para criptografia em repouso usando Transparent Data Encryption (TDE). Ao usar a autenticação simples, DataSync lê e grava em clusters habilitados para TDE. Se você estiver usando DataSync para copiar dados para um cluster habilitado para TDE, primeiro configure as zonas de criptografia no cluster HDFS. DataSyncnão cria zonas de criptografia.

Criando seu local de transferência HDFS

Configure um local em que você possa usar uma fonte para sua DataSync transferência.

Antes de começar: verifique a conectividade de rede entre seu agente e o cluster Hadoop fazendo o seguinte:

Para criar uma localização HDFS usando o console DataSync
  1. Abra o AWS DataSync console em https://console.aws.amazon.com/datasync/.

  2. No painel de navegação esquerdo, expanda Transferência de dados e escolha Locais e Criar localização.

  3. Em Tipo de localização, escolha Sistema de Arquivos Distribuído do Hadoop (HDFS). Você pode configurar esse local como origem ou destino posteriormente.

  4. Para Agentes, escolha um ou mais agentes que você deseja usar na lista de agentes disponíveis. O agente se conecta ao seu cluster HDFS para transferir dados com segurança entre o cluster HDFS e. DataSync

  5. Para NameNode, forneça o nome de domínio ou endereço IP do cluster HDFS NameNode primário.

  6. Em Pasta, insira uma pasta em seu cluster HDFS que DataSync será usada para a transferência de dados. Quando o local é usado como fonte para uma tarefa, DataSync copia os arquivos na pasta fornecida. Quando sua localização é usada como destino para uma tarefa, DataSync grava todos os arquivos na pasta fornecida.

  7. Para definir o tamanho do bloco ou o fator de replicação, escolha Configurações adicionais. O tamanho padrão do bloco é 128 MiB e qualquer tamanho de bloco fornecido deve ser um múltiplo de 512 bytes. O fator de replicação padrão é três DataNodes ao transferir dados para o cluster do HDFS.

  8. Na seção Segurança, escolha o tipo de autenticação usado em seu cluster HDFS.

    • Simples — Para usuário, especifique o nome do usuário com as seguintes permissões no cluster HDFS (dependendo do seu caso de uso):

      • Se você planeja usar esse local como local de origem, especifique um usuário que tenha somente permissões de leitura.

      • Se você planeja usar esse local como local de destino, especifique um usuário que tenha permissões de leitura e gravação.

      Opcionalmente, especifique o URI do Key Management Server (KMS) do cluster do HDFS.

    • Kerberos — especifique o Kerberos Principal com acesso ao seu cluster HDFS. Em seguida, forneça o KeyTabarquivo que contém o principal Kerberos fornecido. Em seguida, forneça o arquivo de configuração do Kerberos. Por fim, especifique o tipo de criptografia na proteção de trânsito nas listas suspensas Proteção de RPC e Proteção de transferência de dados.

  9. (Opcional) Escolha Adicionar tag para marcar sua localização no HDFS.

    Tags são pares chave-valor que ajudam você a gerenciar, filtrar e pesquisar locais. Recomendamos criar pelo menos uma etiqueta de nome para a sua localização.

  10. Escolha Criar localização.

Recursos HDFS incompatíveis

Atualmente, os seguintes recursos do HDFS não têm suporte por: DataSync

  • Transparent Data Encryption (TDE) ao usar a autenticação Kerberos

  • Configurando vários NameNodes

  • Hadoop HDFS sobre HTTP (HTTPFS)

  • Listas de controle de acesso (ACLs) do POSIX

  • Atributos estendidos do HDFS (xattrs)