Batching kleiner Dateien zur Verbesserung der Datenübertragungsleistung auf Geräte der Snow Family - AWS Snowball Edge Leitfaden für Entwickler

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Batching kleiner Dateien zur Verbesserung der Datenübertragungsleistung auf Geräte der Snow Family

Bei jeder Kopieroperation entsteht ein zusätzlicher verschlüsselungsbedingter Overhead. Um die Übertragung kleiner Dateien auf Ihr AWS Snowball Edge Gerät zu beschleunigen, können Sie sie in einem einzigen Archiv zusammenfassen. Wenn Sie Dateien stapeln, können sie beim Import in Amazon S3 automatisch extrahiert werden, sofern sie in einem der unterstützten Archivformate gebündelt wurden.

In der Regel sollten Dateien, die 1 MB oder kleiner sind, in Stapeln gespeichert werden. Es gibt keine Begrenzung für die Anzahl der Dateien, die in Stapeln gespeichert werden können. Wir empfehlen jedoch, dass Sie Ihre Stapel auf ca. 10 000 Dateien begrenzen. Wenn Sie mehr als 100.000 Dateien in einem Stapel haben, kann dies beeinflussen, wie schnell diese Dateien nach der Rückgabe des Geräts in Amazon S3 importiert werden. Wir empfehlen, die Gesamtgröße der einzelnen Stapel auf max. 100 GB zu beschränken.

Das Stapeln von Dateien ist ein manueller Prozess, den Sie verwalten. Nachdem Sie Ihre Dateien gebündelt haben, übertragen Sie sie mithilfe des AWS CLI cp Befehls mit der --metadata snowball-auto-extract=true Option auf ein Snowball Edge-Gerät. Wenn Sie angeben, wird der Inhalt der archivierten Dateien snowball-auto-extract=true automatisch extrahiert, wenn die Daten in Amazon S3 importiert werden, sofern die Größe der Batchdatei nicht größer als 100 GB ist.

Anmerkung

Stapel, die größer als 100 GB sind, werden nicht extrahiert, wenn sie in Amazon S3 importiert werden.

So stapeln Sie kleine Dateien
  1. Bestimmen Sie, in welchem Format die kleinen Dateien gestapelt werden sollen. Die Funktion zum automatischen Extrahieren unterstützt die Formate TAR, ZIP, tar.gz.

  2. Identifizieren Sie, welche kleinen Dateien zusammen gestapelt werden sollen. Schließen Sie deren Größe und die Gesamtzahl der Dateien ein, die zusammen gestapelt werden sollen.

  3. Stapeln Sie Ihre Dateien in der Befehlszeile, wie in den folgenden Beispielen gezeigt.

    • Unter Linux können Sie die Dateien in derselben Befehlszeile stapeln, mit der Sie Ihre Dateien auf das Gerät übertragen haben.

      tar -cf - /Logs/April | aws s3 cp - s3://mybucket/batch01.tar --metadata snowball-auto-extract=true --endpoint http://192.0.2.0:8080
      Anmerkung

      Alternativ können Sie ein Archivierungsprogramm Ihrer Wahl verwenden, um Dateien in einem oder mehreren großen Archiven zu stapeln. Dieser Ansatz erfordert jedoch zusätzlichen lokalen Speicher zum Speichern der Archive, bevor Sie sie auf die Snowball-Appliance übertragen.

    • Verwenden Sie für Windows den folgenden Beispielbefehl, um die Dateien zu stapeln, wenn sich alle Dateien in demselben Verzeichnis befinden, von dem aus der Befehl ausgeführt wird:

      7z a -tzip -so "test" | aws s3 cp - s3://mybucket/batch01.zip --metadata snowball-auto-extract=true --endpoint http://192.0.2.0:8080

      Verwenden Sie den folgenden Beispielbefehl, um Dateien aus einem anderen Verzeichnis zu stapeln, von dem aus der Befehl ausgeführt wird:

      7z a -tzip -so "test" "c:\temp" | aws s3 cp - s3://mybucket/batch01.zip --metadata snowball-auto-extract=true --endpoint http://10.x.x.x:8080
      Anmerkung

      Für Microsoft Windows 2016 ist Tar nicht verfügbar, Sie können es jedoch von der Tar for Windows-Website herunterladen.

      Sie können 7 ZIP von der ZIP 7-Website herunterladen.

  4. Wiederholen Sie den Vorgang, bis Sie alle kleinen Dateien archiviert haben, die Sie mit einem Snowball Edge auf Amazon S3 übertragen möchten.

  5. Übertragen Sie die archivierten Dateien auf den Snowball. Wenn Sie möchten, dass die Daten automatisch extrahiert werden, und Sie eines der zuvor in Schritt 1 genannten unterstützten Archivformate verwendet haben, verwenden Sie den AWS CLI cp Befehl mit der --metadata snowball-auto-extract=true Option.

    Anmerkung

    Wenn es Dateien gibt, die keine Archivdateien sind, verwenden Sie diesen Befehl nicht.

Beim Erstellen der Archivdateien wird bei der Extraktion die aktuelle Datenstruktur beibehalten. Das heißt, wenn Sie eine Archivdatei erstellen, die Dateien und Ordner enthält, erstellt Snowball Edge diese während der Aufnahme in Amazon S3 neu.

Die Archivdatei wird in dasselbe Verzeichnis extrahiert, in dem sie gespeichert ist, und die Ordnerstrukturen werden entsprechend aufgebaut. Denken Sie daran, dass es beim Kopieren von Archivdateien wichtig ist, die Markierung zu setzen--metadata snowball-auto-extract=true. Andernfalls extrahiert Snowball Edge die Daten nicht, wenn sie in Amazon S3 importiert werden.

Verwenden Sie das Beispiel in Schritt 3, wenn Sie die Ordnerstruktur /Logs/April/ haben, die Dateien enthält, und. a.txt b.txt c.txt Wenn diese Archivdatei im Stammverzeichnis von /mybucket/ platziert würde, würden die Daten nach dem Extrahieren wie folgt aussehen:

/mybucket/Logs/April/a.txt /mybucket/Logs/April/b.txt /mybucket/Logs/April/c.txt

Wenn die Archivdatei in /MyBucket/test/ platziert würde, würde die Extraktion wie folgt aussehen:

/mybucket/Test/Logs/April/a.txt /mybucket/Test/Logs/April/b.txt /mybucket/Test/Logs/April/c.txt