Datenvorbereitung in großem Maßstab mit Amazon EMR Serverless-Anwendungen oder Amazon EMR-Clustern in Studio - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenvorbereitung in großem Maßstab mit Amazon EMR Serverless-Anwendungen oder Amazon EMR-Clustern in Studio

Amazon SageMaker Studio und seine ältere Version, Studio Classic, bieten Datenwissenschaftlern und Machine-Learning-Ingenieuren (ML) Tools, mit denen sie Datenanalysen und Datenaufbereitung in großem Umfang durchführen können. Die Analyse, Transformation und Aufbereitung großer Datenmengen ist ein grundlegender Schritt jedes datenwissenschaftlichen und ML-Workflows. Sowohl Studio als auch Studio Classic verfügen über eine integrierte Integration mit Amazon EMR, sodass Benutzer umfangreiche, interaktive Datenvorbereitungs- und Machine-Learning-Workflows in ihren JupyterLab Notebooks verwalten können.

Amazon EMR ist eine verwaltete Big-Data-Plattform mit Ressourcen, die Sie bei der Ausführung verteilter Datenverarbeitungsaufträge im Petabyte-Bereich mithilfe von Open-Source-Analyse-Frameworks AWS wie Apache Spark, Apache Hive, Presto und Flink unter anderem unterstützen. HBase Durch die Integration von Studio und Studio Classic mit Amazon EMR können Sie Amazon EMR-Cluster erstellen, durchsuchen, entdecken und eine Verbindung zu ihnen herstellen, ohne Ihre Notizbücher JupyterLab oder Studio Classic-Notizbücher verlassen zu müssen. Sie können Ihre Spark-Workloads zusätzlich überwachen und debuggen, indem Sie mit einem Klick direkt von Ihrem Notebook aus auf die Spark-Benutzeroberfläche zugreifen.

Sie sollten Amazon EMR-Cluster für Ihre Datenvorbereitungs-Workloads in Betracht ziehen, wenn Sie umfangreiche, lang andauernde oder komplexe Datenverarbeitungsanforderungen haben, die riesige Datenmengen beinhalten, umfangreiche Anpassungen und Integration mit anderen Services erfordern, benutzerdefinierte Anwendungen ausführen müssen oder planen, eine Vielzahl von verteilten Datenverarbeitungs-Frameworks zu betreiben, die über Apache Spark hinausgehen.

Mit SageMaker Distribution Image 1.10 oder höher können Sie alternativ direkt von Ihren JupyterLab Notebooks in SageMaker AI Studio aus eine Verbindung zu interaktiven EMR Serverless-Anwendungen herstellen. Durch die Integration von Studio mit EMR Serverless können Sie Open-Source-Frameworks für Big-Data-Analysen wie Apache Spark und Apache Hive ausführen, ohne Amazon EMR-Cluster konfigurieren, verwalten oder skalieren zu müssen. EMR Serverless stellt die zugrunde liegenden Rechen- und Speicherressourcen automatisch bereit und verwaltet sie entsprechend den Anforderungen Ihrer EMR Serverless-Anwendung. Es skaliert Ressourcen dynamisch hoch und runter und berechnet Ihnen oder die Menge an vCPU-, Arbeitsspeicher- und Speicherressourcen, die von Ihren Anwendungen verbraucht werden. Dieser serverlose Ansatz ermöglicht es Ihnen, interaktive Datenvorbereitungsworkloads von Ihren JupyterLab Notebooks aus auszuführen, ohne sich Gedanken über die Clusterverwaltung machen zu müssen. Gleichzeitig erreichen Sie eine hohe Instanzauslastung und Kosteneffizienz.

Sie sollten EMR Serverless für Ihre interaktiven Datenvorbereitungs-Workloads in Betracht ziehen, wenn Ihre Workloads kurzlebig oder intermittierend sind und keinen persistenten Cluster benötigen; Sie bevorzugen eine serverlose Umgebung mit automatischer Ressourcenbereitstellung und -beendigung, wodurch der Aufwand für die Verwaltung der Infrastruktur vermieden wird; oder wenn sich Ihre Aufgaben zur interaktiven Datenvorbereitung hauptsächlich um Apache Spark drehen.