Vorteile der Verwendung von Amazon EMR - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Vorteile der Verwendung von Amazon EMR

Es gibt zahlreiche Vorteile für die Verwendung von Amazon EMR. Dieser Abschnitt bietet eine Übersicht über die Vorteile und stellt Ihnen Links zu weiteren Informationen zur Verfügung.

Kosteneinsparungen

Amazon EMR Preisgestaltung richtet sich nach dem Instance-Typ und der Anzahl der Amazon-EC2-Instances, die Sie bereitstellen, sowie der Region, in der Sie den Cluster starten. On-Demand-Preise bieten einen niedrigen Stundensatz, allerdings können Sie die Kosten weiter senken, indem Sie Reserved Instances erwerben oder auf Spot-Instances bieten. Spot Instances können bedeutende Kostenersparnisse bieten – in einigen Fällen betragen sie nur ein Zehntel der On-Demand-Preise.

Anmerkung

Wenn Sie Amazon S3, Amazon Kinesis oder DynamoDB mit Ihrem EMR-Cluster verwenden, fallen für diese Services zusätzliche Gebühren an, die getrennt von Ihrer Amazon-EMR-Nutzung berechnet werden.

Anmerkung

Wenn Sie einen Amazon-EMR-Cluster in einem privaten Subnetz einrichten, empfehlen wir, dass Sie auch VPC-Endpunkte für Amazon S3 einrichten. Wenn sich Ihr EMR-Cluster in einem privaten Subnetz ohne VPC-Endpunkte für Amazon S3 befindet, fallen zusätzliche NAT-Gateway-Gebühren an, die mit S3-Verkehr verbunden sind, da der Verkehr zwischen Ihrem EMR-Cluster und S3 nicht innerhalb Ihrer VPC verbleibt.

Weitere Informationen zu Preisoptionen und Details finden Sie unter Amazon-EMR-Preise.

AWS Integration

Amazon EMR lässt sich in andere AWS Services integrieren, um Funktionen und Funktionen in Bezug auf Netzwerk, Speicher, Sicherheit usw. für Ihren Cluster bereitzustellen. In der folgenden Liste finden Sie einige Beispiele für diese Integration:

  • Amazon EC2 für die Instances, die als Knoten im Cluster vorhanden sind

  • Amazon Virtual Private Cloud (Amazon VPC) zur Konfiguration des virtuellen Netzwerks, in dem Sie Ihre Instances starten

  • Amazon S3 zum Speichern von Ein- und Ausgabedaten

  • Amazon überwacht CloudWatch die Cluster-Leistung und konfiguriert Alarme

  • AWS Identity and Access Management (IAM) zur Konfiguration von Berechtigungen

  • AWS CloudTrail um Anfragen an den Service zu prüfen

  • AWS Data Pipeline um Ihre Cluster zu planen und zu starten

  • AWS Lake Formation um Daten in einem Amazon S3 S3-Data Lake zu entdecken, zu katalogisieren und zu sichern

Bereitstellung

Ihr EMR-Cluster besteht aus EC2-Instances, die die Aufgaben ausführen, die Sie Ihrem Cluster übermitteln. Wenn Sie einen Cluster starten, konfiguriert Amazon EMR die Instances mit den von Ihnen ausgewählten Anwendungen, wie beispielsweise Apache Hadoop oder Spark. Wählen Sie die Größe und den Typ der Instance aus, die am ehesten den Verarbeitungsanforderungen Ihres Clusters entsprechen: Stapelverarbeitung, schnelle Abfragen, Streaming-Daten oder große Datenspeicher. Weitere Informationen zu den für Amazon EMR verfügbaren Instance-Typen finden Sie unter Cluster-Hardware und Netzwerken konfigurieren.

Amazon EMR bietet verschiedene Möglichkeiten zum Konfigurieren von Software auf Ihrem Cluster. Sie können beispielsweise eine Amazon-EMR-Version installieren, die eine Reihe ausgewählter Anwendungen umfasst, einschließlich vielseitiger Frameworks wie Hadoop und Anwendungen, wie beispielsweise Hive, Pig oder Spark. Darüber hinaus können Sie auch eine der zahlreichen MapR-Verteilungen installieren. Amazon EMR verwendet Amazon Linux so können Sie auch Software unter Verwendung des Paket-Managers yum oder direkt von der Quelle manuell auf Ihrem Cluster installieren. Weitere Informationen finden Sie unter Konfigurieren der Cluster-Software.

Skalierbarkeit und Flexibilität

Amazon EMR bietet Flexibilität, sodass Sie Ihren Cluster nach oben oder unten skalieren können, wenn sich Ihre Anforderungen an die Datenverarbeitung ändern. Sie können die Größe des Clusters ändern, um während Spitzenlastzeiten Instances hinzuzufügen, und um Instances zu entfernen, wenn die Spitzenlastzeiten nachlassen. So verfügen Sie über mehr Kontrolle über Ihre Kosten. Weitere Informationen finden Sie unter Manuelle Größenanpassung eines aktiven Clusters.

Amazon EMR bietet außerdem die Option, mehrere Instance-Gruppen auszuführen. So können Sie sie in einer Gruppe On-Demand-Instances verwenden, um die Verarbeitungsleistung sicherzustellen, während Sie in einer anderen Gruppe Spot Instances verwenden, um Ihre Aufträge schneller abzuschließen und Kosten zu senken. Sie können auch verschiedene Instance-Typen mischen, um die Preisvorteile von bestimmten Spot-Instance-Typen zu nutzen. Weitere Informationen finden Sie unter Wann sollten Sie Spot Instances verwenden?.

Darüber hinaus bietet Amazon EMR die Flexibilität, verschiedene Dateisysteme für Ihre Eingabe-, Ausgabe- und Zwischendaten zu verwenden. Für die Verarbeitung von Daten, die Sie nicht länger als den Lebenszyklus Ihres Clusters speichern müssen, können Sie beispielsweise das Hadoop Distributed File System (HDFS) auswählen, das auf den Primär- und Core-Knoten Ihres Clusters ausgeführt wird. Sie können möglicherweise auch das EMR File System (EMRFS) für die Verwendung mit Amazon S3 auswählen. Es kann als Daten-Layer für Anwendungen auf Ihrem Cluster dienen, sodass Sie die Datenverarbeitung und den Speicher trennen und Daten außerhalb des Lebenszyklus Ihres Clusters erhalten können. EMRFS bietet Ihnen die Möglichkeit, Ihre Anforderungen an die Datenverarbeitung und an den Speicher nach oben oder nach unten zu skalieren. Sie können Ihre Anforderungen an die Datenverarbeitung skalieren, indem Sie die Größe Ihres Clusters verändern, und Ihre Speicheranforderungen skalieren, indem Sie Amazon S3 verwenden. Weitere Informationen finden Sie unter Mit Storage- und Dateisystemen arbeiten.

Zuverlässigkeit

Amazon EMR; überwacht die Knoten in Ihrem Cluster und beendet und ersetzt eine Instance automatisch, wenn ein Fehler auftritt.

Amazon EMR bietet Konfigurationsoptionen, anhand denen Sie steuern, ob der Cluster beendet werden soll automatisch oder manuell. Wenn Sie Ihren Cluster so konfigurieren, dass er automatisch beendet wird, erfolgt das, nachdem alle Schritte abgeschlossen sind. Dies wird auch als vorübergehender Cluster bezeichnet. Sie können den Cluster jedoch auch so konfigurieren, dass er nach Abschluss der Verarbeitung weiter ausgeführt wird. Auf diese Weise können Sie ihn manuell beenden, wenn Sie ihn nicht länger benötigen. Alternativ können Sie einen Cluster erstellen, mit den installierten Anwendungen direkt interagieren und den Cluster, wenn Sie ihn nicht mehr benötigen, manuell beenden. Die Cluster in diesen Beispielen werden als langlebige Cluster bezeichnet.

Zusätzlich können Sie den Beendigungsschutz konfigurieren, um zu verhindern, dass Instances im Cluster aufgrund von Fehlern oder Problemen während der Verarbeitung beendet werden. Wenn der Beendigungsschutz aktiviert ist, können Sie die Daten vor der Beendigung von den Instances wiederherstellen. Die Standardeinstellungen für diese Optionen unterscheiden sich, je nachdem, ob Sie einen Cluster über die Konsole, die CLI oder die API starten. Weitere Informationen finden Sie unter Verwenden des Beendigungsschutzes.

Sicherheit

Amazon EMR nutzt andere AWS Services wie IAM und Amazon VPC sowie Funktionen wie Amazon EC2 EC2-Schlüsselpaare, um Sie bei der Sicherung Ihrer Cluster und Daten zu unterstützen.

IAM

Amazon EMR kann mit IAM integriert werden, um Berechtigungen zu verwalten. Sie definieren Berechtigungen mit IAM-Richtlinien, die Sie Benutzern oder IAM-Gruppen anfügen. Die Berechtigungen, die Sie in den Richtlinie definieren, legen fest, welche Aktionen diese Benutzer oder Gruppenmitglieder ausführen können, und auf welche Ressourcen sie zugreifen können. Weitere Informationen finden Sie unter So EMR arbeitet Amazon mit IAM.

Darüber hinaus verwendet Amazon EMR, IAM-Rollen für den Amazon EMR selbst und das EC2-Instance-Profil für die Instances. Diese Rollen gewähren dem Service und den Instances die Erlaubnis, in Ihrem Namen auf andere AWS Services zuzugreifen. Es gibt sowohl für den Amazon-EMR-Service als auch für das EC2-Instance-Profil eine standardmäßige Rolle. Die Standardrollen verwenden AWS verwaltete Richtlinien, die automatisch für Sie erstellt werden, wenn Sie zum ersten Mal einen EMR-Cluster von der Konsole aus starten und Standardberechtigungen auswählen. Sie können die IAM-Standardrollen auch über die AWS CLI erstellen. Wenn Sie stattdessen die Berechtigungen verwalten möchten AWS, können Sie benutzerdefinierte Rollen für das Service- und Instanzprofil auswählen. Weitere Informationen finden Sie unter IAMServicerollen für EMR Amazon-Berechtigungen für AWS Dienste und Ressourcen konfigurieren.

Sicherheitsgruppen

Amazon EMR verwendet Sicherheitsgruppen, um den ein- und ausgehenden Datenverkehr zu Ihren EC2-Instances zu steuern. Wenn Sie einen Cluster starten, verwendet Amazon EMR eine Sicherheitsgruppe für die primäre-Instance und eine Sicherheitsgruppe, die von den Core-/Aufgaben-Instances gemeinsam genutzt wird. Amazon EMR konfiguriert die Sicherheitsgruppenregeln, um die Kommunikation zwischen den Instances im Cluster sicherzustellen. Optional können Sie, falls Sie erweiterte Regeln benötigen, zusätzliche Sicherheitsgruppen konfigurieren und sie den primäre und Core-/Aufgaben-Instances zuweisen. Weitere Informationen finden Sie unter Steuerung des Netzwerkverkehrs mit Sicherheitsgruppen.

Verschlüsselung

Amazon EMR unterstützt die optionale Amazon S3 serverseitige und clientseitige Verschlüsselung mit EMRFS, um die von Ihnen in Amazon S3 gespeicherten Daten zu schützen. Bei der serverseitigen Verschlüsselung werden Ihre Daten von Amazon S3 nach dem Hochladen verschlüsselt.

Bei der clientseitigen Verschlüsselung erfolgt der Ver- und Entschlüsselungsvorgang im EMRFS-Client auf Ihrem EMR-Cluster. Sie verwalten den Stammschlüssel für die clientseitige Verschlüsselung entweder mit dem AWS Key Management Service (AWS KMS) oder Ihrem eigenen Schlüsselverwaltungssystem.

Weitere Informationen finden Sie unter Amazon-S3-Verschlüsselung mithilfe von EMRFS-Eigenschaften angeben.

Amazon VPC

Amazon EMR unterstützt das Starten von Clustern in einer Virtual Private Cloud (VPC) in Amazon VPC. Eine VPC ist ein isoliertes, virtuelles Netzwerk, AWS das die Möglichkeit bietet, erweiterte Aspekte der Netzwerkkonfiguration und des Netzwerkzugriffs zu steuern. Weitere Informationen finden Sie unter Netzwerk konfigurieren.

AWS CloudTrail

Amazon EMR lässt sich integrieren CloudTrail , um Informationen über Anfragen zu protokollieren, die von oder im Namen Ihres AWS Kontos gestellt wurden. Anhand dieser Informationen können Sie verfolgen, wer wann auf Ihr Cluster zugreift sowie die IP-Adresse, von der die Anforderung gestellt wird. Weitere Informationen finden Sie unter EMRAPIAmazon-Anrufe protokollieren AWS CloudTrail.

Amazon-EC2-Schlüsselpaare

Indem Sie eine sichere Verbindung zwischen Ihrem Remotecomputer und dem Primärknoten herstellen, können Sie Ihren Cluster überwachen und damit interagieren. Sie verwenden das Netzwerkprotokoll Secure Shell (SSH) für diese Verbindung oder Kerberos für die Authentifizierung. Wenn Sie SSH verwenden, ist ein Amazon-EC2-Schlüsselpaar erforderlich. Weitere Informationen finden Sie unter Verwenden Sie ein EC2 key pair für SSH Anmeldeinformationen.

Überwachen

Sie können die Amazon-EMR-Management-Schnittstellen und Protokolldateien verwenden, um Probleme mit dem Cluster zu beheben, z. B. bei Ausfällen oder Fehlern. Amazon EMR bietet die Möglichkeit, Protokolldateien in Amazon S3 zu archivieren, sodass Sie Protokolle speichern und Probleme beheben können, auch nachdem der Cluster beendet wurde. Amazon EMR bietet in der Amazon-EMR-Konsole auch ein optionales Debugging-Tool, mit dem Sie die Protokolldateien im Hinblick auf Schritte, Aufträge und Aufgaben durchsuchen können. Weitere Informationen finden Sie unter Konfigurieren der Cluster-Protokollierung und des Debuggings.

Amazon EMR lässt sich integrieren CloudWatch , um Leistungskennzahlen für den Cluster und Jobs innerhalb des Clusters nachzuverfolgen. Sie können Alarme im Hinblick auf eine Vielzahl von Metriken konfigurieren, z. B. ob der Cluster inaktiv ist oder wie viel Prozent des Speicherplatzes verbraucht wurden. Weitere Informationen finden Sie unter Überwachung von EMR Amazon-Metriken mit CloudWatch.

Verwaltungsschnittstellen

Es gibt mehrere Möglichkeiten, mit Amazon EMR zu interagieren:

  • Konsole – eine grafische Benutzerschnittstelle, die Sie verwenden können, um Clusters zu starten oder zu verwalten. Hier füllen Sie Webformulare aus, um Detaildaten zum Starten von Clusters anzugeben, Detaildaten von vorhandenen Clusters anzuzeigen und Clusters zu debuggen bzw. zu beenden. Die Konsole bietet die einfachste Möglichkeit für die ersten Schritte mit Amazon EMR keine Programmierkenntnisse erforderlich. Die Konsole ist online unter https://console.aws.amazon.com/elasticmapreduce/home verfügbar.

  • AWS Command Line Interface (AWS CLI) — Eine Client-Anwendung, die Sie auf Ihrem lokalen Computer ausführen, um eine Verbindung zu Amazon EMR herzustellen und Cluster zu erstellen und zu verwalten. Das AWS CLI enthält eine Reihe von Befehlen mit vielen Funktionen, die speziell für Amazon EMR gelten. Damit schreiben Sie Skripts, die das Starten und Verwalten der Clusters automatisieren. Wenn Sie lieber von einer Befehlszeile aus arbeiten, AWS CLI ist die Verwendung von die beste Option. Weitere Informationen und Beispiele finden Sie unter Amazon EMR in der AWS CLI -Befehlsreferenz.

  • Software Development Kit (SDK) – SDKs stellt Funktionen bereit, die Amazon EMR aufrufen, um Clusters zu erstellen und zu verwalten. Mit ihnen können Sie Anwendungen schreiben, die das Erstellen und Verwalten von Clusters automatisieren. Die Verwendung des SDK ist die beste Option, wenn Sie die Funktionen von Amazon EMR erweitern oder anpassen möchten. Amazon EMR ist derzeit in den folgenden SDKs verfügbar: Go, Java, .NET (C# und VB.NET), Node.js, PHP, Python und Ruby. Weitere Informationen über diese SDKs, finden Sie unter Tools für AWS und Amazon-EMR-Beispielcode und -Bibliotheken.

  • Web Service API – eine Low-Level-Schnittstelle, die Sie benutzen können, um den Webservice direkt mithilfe von JSON aufzurufen. Die Verwendung der API ist die beste Option, wenn Sie ein eigenes SDK erstellen wollen, das Amazon EMR aufruft. Weitere Informationen finden Sie in der Amazon-EMR-API-Referenz.