Verschiedene Möglichkeiten, Daten in Amazon EMR zu übertragen

Amazon EMR bietet mehrere Möglichkeiten, um Daten auf einen Cluster zu laden. Die häufigste Methode besteht im Hochladen der Daten zu Amazon S3 und der Verwendung der integrierten Features von Amazon EMR, um die Daten in Ihren Cluster zu laden. Sie können auch das Hadoop-Feature DistributedCache für den verteilten Cache verwenden, um Dateien von einem verteilten Dateisystem in das lokale Dateisystem zu übertragen. Die von Amazon EMR bereitgestellte Hive-Implementierung (Hive-Version 0.7.1.1 und höher) enthält Funktionen, die Sie zum Importieren und Exportieren von Daten zwischen DynamoDB und einen Amazon-EMR-Cluster verwenden können. Wenn Sie große Datenmengen On-Premises verarbeiten müssen, kann der AWS Direct Connect -Service nützlich sein.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Arten von Eingabedaten, die Amazon EMR akzeptieren kann

Daten aus Amazon S3 uploaden