Konfiguration von AWS DataSync Übertragungen von HDFS - AWS DataSync

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konfiguration von AWS DataSync Übertragungen von HDFS

Zum Übertragen von Daten von Ihrem Hadoop Distributed File System (HDFS) zu übertragen, müssen Sie einen AWS DataSync Übertragungsort erstellen.

Zugriff auf HDFS-Cluster

Um eine Verbindung zu Ihrem HDFS-Cluster herzustellen, DataSync verwenden Sie einen Agenten, den Sie in der Nähe Ihres HDFS-Clusters bereitstellen. Weitere Informationen zu DataSync Agenten finden Sie unterZusammenarbeit mit AWS DataSync Agenten. Der DataSync Agent fungiert als HDFS-Client und kommuniziert mit den NameNodes und DataNodes in Ihren Clustern.

Wenn Sie eine Aufgabe starten, DataSync fragt sie NameNode nach Speicherorten von Dateien und Ordnern im Cluster ab. Wenn der HDFS-Speicherort als Quelle konfiguriert ist, DataSync liest er Dateien und Ordnerdaten aus dem DataNodes im Cluster und kopiert die Daten an das Ziel. Wenn der HDFS-Speicherort als Ziel konfiguriert ist, DataSync werden Dateien und Ordner vom Ziel DataNodes in den Cluster geschrieben. Bevor Sie Ihre DataSync Aufgabe ausführen, überprüfen Sie die Agentenkonnektivität zum HDFS-Cluster. Weitere Informationen finden Sie unter Testen der Verbindung Ihres Agenten zu einem Speichersystem.

Authentifizierung

DataSyncUnterstützt beim Herstellen einer Verbindung zu einem HDFS-Cluster die einfache Authentifizierung oder die Kerberos-Authentifizierung. Um die einfache Authentifizierung zu verwenden, geben Sie den Benutzernamen eines Benutzers mit Lese- und Schreibrechten für den HDFS-Cluster an. Um die Kerberos-Authentifizierung zu verwenden, geben Sie eine Kerberos-Konfigurationsdatei, eine Kerberos-Schlüsseltabellendatei (Keytab) und einen Kerberos-Prinzipalnamen an. Die Anmeldeinformationen des Kerberos-Prinzipals müssen in der bereitgestellten Keytab-Datei enthalten sein.

Verschlüsselung

Bei Verwendung der Kerberos-Authentifizierung wird DataSync die Verschlüsselung von Daten bei der Übertragung zwischen dem DataSync Agenten und Ihrem HDFS-Cluster unterstützt. Verschlüsseln Sie Ihre Daten, indem Sie die Quality of Protection (QOP) -Konfigurationseinstellungen in Ihrem HDFS-Cluster verwenden und die QOP-Einstellungen bei der Erstellung Ihres HDFS-Standorts angeben. Die QOP-Konfiguration umfasst Einstellungen für den Datentransferschutz und den Remote Procedure Call (RPC) -Schutz.

DataSyncunterstützt die folgenden Kerberos-Verschlüsselungstypen:
  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

Sie können HDFS-Cluster auch für die Verschlüsselung im Ruhezustand mit Transparent Data Encryption (TDE) konfigurieren. Bei Verwendung der einfachen Authentifizierung werden DataSync Lese- und Schreibvorgänge in TDE-fähige Cluster ausgeführt. Wenn Sie Daten DataSync in einen TDE-fähigen Cluster kopieren, konfigurieren Sie zunächst die Verschlüsselungszonen auf dem HDFS-Cluster. DataSyncerstellt keine Verschlüsselungszonen.

Erstellen Sie Ihren HDFS-Übertragungsort

Konfigurieren Sie einen Standort, an dem Sie eine Quelle für Ihre DataSync Übertragung verwenden können.

Bevor Sie beginnen: Überprüfen Sie die Netzwerkkonnektivität zwischen Ihrem Agenten und dem Hadoop-Cluster, indem Sie wie folgt vorgehen:

So erstellen Sie einen HDFS-Speicherort mithilfe der Konsole DataSync
  1. Öffnen Sie die AWS DataSync Konsole unter https://console.aws.amazon.com/datasync/.

  2. Erweitern Sie im linken Navigationsbereich die Option Datenübertragung und wählen Sie dann Standorte und Standort erstellen aus.

  3. Wählen Sie als Standorttyp Hadoop Distributed File System (HDFS). Sie können diesen Standort später als Quelle oder Ziel konfigurieren.

  4. Wählen Sie für Agenten einen oder mehrere Agenten aus der Liste der verfügbaren Agenten aus, die Sie verwenden möchten. Der Agent stellt eine Verbindung zu Ihrem HDFS-Cluster her, um Daten sicher zwischen dem HDFS-Cluster und zu übertragen. DataSync

  5. Für NameNodegeben Sie den Domänennamen oder die IP-Adresse des primären NameNode HDFS-Clusters an.

  6. Geben Sie unter Ordner einen Ordner auf Ihrem HDFS-Cluster ein, der für die Datenübertragung verwendet DataSync werden soll. Wenn der Speicherort als Quelle für eine Aufgabe verwendet wird, werden Dateien in den angegebenen Ordner DataSync kopiert. Wenn Ihr Standort als Ziel für eine Aufgabe verwendet wird, werden DataSync alle Dateien in den angegebenen Ordner geschrieben.

  7. Um die Blockgröße oder den Replikationsfaktor festzulegen, wählen Sie Zusätzliche Einstellungen. Die Standardblockgröße ist 128 MiB, und alle müssen ein Vielfaches von 512 Bytes sein. Der Standardreplikationsfaktor ist dreiDataNodes, wenn Daten zum HDFS-Cluster übertragen wird.

  8. Wählen Sie im Abschnitt Sicherheit den Authentifizierungstyp aus, der in Ihrem HDFS-Cluster verwendet wird.

    • Einfach — Geben Sie für Benutzer den Benutzernamen mit den folgenden Berechtigungen für den HDFS-Cluster an (abhängig von Ihrem Anwendungsfall):

      • Wenn Sie diesen Speicherort als Quellspeicherort verwenden möchten, geben Sie einen Benutzer an, der nur über Leseberechtigungen verfügt.

      • Wenn Sie diesen Speicherort als Zielort verwenden möchten, geben Sie einen Benutzer an, der über Lese- und Schreibberechtigungen verfügt.

      Geben Sie optional die URI des Key Management Servers (KMS) des HDFS-Clusters ein.

    • Kerberos — Geben Sie den Kerberos-Principal mit Zugriff auf Ihren HDFS-Cluster an. Stellen Sie als Nächstes die KeyTabDatei bereit, die das bereitgestellte Kerberos-Prinzip enthält. Stellen Sie dann die Kerberos-Konfigurationsdatei bereit. Geben Sie abschließend in den Dropdownlisten RPC-Schutz und Datentransferschutz die Art der Verschlüsselung im Transitschutz an.

  9. (Optional) Wählen Sie Tag hinzufügen, um Ihren HDFS-Standort zu kennzeichnen.

    Tags sind Schlüssel-Wert-Paare, mit denen Sie Ihre Standorte verwalten, filtern und suchen können. Wir empfehlen, zumindest ein Namensschild für Ihren Standort zu erstellen.

  10. Wählen Sie Standort erstellen aus.

Nicht unterstützte HDFS-Funktionen

Die folgenden Funktionen von HDFS werden derzeit nicht unterstützt vonDataSync:

  • Transparent Data Encryption (TDE) bei der Kerberos-Authentifizierung

  • Konfiguration mehrerer NameNodes

  • Hadoop HDFS über HTTP (HttpFS)

  • POSIX-Zugriffssteuerungslisten (ACLs)

  • Erweiterte HDFS-Attribute (Xattrs)