Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Jobs streamen
Ein Streaming-Job in EMR Serverless ist ein Jobmodus, mit dem Sie Streaming-Daten nahezu in Echtzeit analysieren und verarbeiten können. Diese lang andauernden Jobs fragen Streaming-Daten ab und verarbeiten die Ergebnisse kontinuierlich, sobald Daten eintreffen. Streaming-Jobs eignen sich am besten für Aufgaben, die eine Datenverarbeitung in Echtzeit erfordern, z. B. Analysen nahezu in Echtzeit, Betrugserkennung und Empfehlungsprogramme. EMRServerlose Streaming-Jobs bieten Optimierungen, wie z. B. integrierte Job-Resilienz, Echtzeitüberwachung, erweiterte Protokollverwaltung und Integration mit Streaming-Konnektoren.
Im Folgenden sind einige Anwendungsfälle für Streaming-Jobs aufgeführt:
-
Analysen nahezu in Echtzeit — Mit Streaming-Jobs in Amazon EMR Serverless können Sie Streaming-Daten nahezu in Echtzeit verarbeiten, sodass Sie Echtzeitanalysen für kontinuierliche Datenströme wie Protokolldaten, Sensordaten oder Clickstream-Daten durchführen können, um Erkenntnisse zu gewinnen und zeitnahe Entscheidungen auf der Grundlage der neuesten Informationen zu treffen.
-
Betrugserkennung — Sie können Streaming-Jobs verwenden, um Betrug bei Finanztransaktionen, Kreditkartenoperationen oder Online-Aktivitäten nahezu in Echtzeit zu erkennen, wenn Sie Datenströme analysieren und verdächtige Muster oder Anomalien identifizieren, sobald sie auftreten.
-
Empfehlungs-Engines — Streaming-Jobs können Daten zu Benutzeraktivitäten verarbeiten und Empfehlungsmodelle aktualisieren. Dies eröffnet Möglichkeiten für personalisierte Empfehlungen in Echtzeit, die auf Verhaltensweisen und Präferenzen basieren.
-
Analyse sozialer Medien — Streaming-Jobs können Social-Media-Daten wie Tweets, Kommentare und Beiträge verarbeiten, sodass Unternehmen Trends verfolgen, Stimmungsanalysen durchführen und den Ruf der Marke nahezu in Echtzeit verwalten können.
-
IoT-Analysen (Internet of Things) — Streaming-Jobs können Datenströme mit hoher Geschwindigkeit von IoT-Geräten, Sensoren und verbundenen Maschinen verarbeiten und analysieren, sodass Sie Anomalieerkennung, vorausschauende Wartung und andere Anwendungsfälle für IoT-Analysen durchführen können.
-
Clickstream-Analyse — Streaming-Jobs können Clickstream-Daten von Websites oder mobilen Anwendungen verarbeiten und analysieren. Unternehmen, die solche Daten verwenden, können Analysen durchführen, um mehr über das Nutzerverhalten zu erfahren, Benutzererlebnisse zu personalisieren und Marketingkampagnen zu optimieren.
-
Überwachung und Analyse von Protokollen — Streaming-Jobs können auch Protokolldaten von Servern, Anwendungen und Netzwerkgeräten verarbeiten. Auf diese Weise können Sie Anomalien erkennen, Fehler beheben und den Zustand und die Leistung Ihres Systems verbessern.
Die wichtigsten Vorteile
Das Streamen von Jobs in EMR Serverless sorgt automatisch für Job-Resilienz, was eine Kombination der folgenden Faktoren ist:
-
Automatische Wiederholung — EMR Serverless wiederholt automatisch alle fehlgeschlagenen Jobs, ohne dass Sie dazu manuell etwas eingeben müssen.
-
Resilienz in der Availability Zone (AZ) — EMR Serverless schaltet Streaming-Jobs automatisch auf eine fehlerfreie AZ um, wenn in der ursprünglichen AZ Probleme auftreten.
-
Protokollverwaltung:
-
Protokollrotation — Für eine effizientere Festplattenspeicherverwaltung rotiert EMR Serverless die Protokolle für lange Streaming-Jobs regelmäßig. Dadurch wird eine Anhäufung von Protokollen verhindert, die möglicherweise den gesamten Festplattenspeicher beansprucht.
-
Protokollkomprimierung — unterstützt Sie bei der effizienten Verwaltung und Optimierung von Protokolldateien in verwalteter Persistenz. Die Komprimierung verbessert auch das Debug-Erlebnis, wenn Sie den Managed Spark History Server verwenden.
-
Unterstützte Datenquellen und Datensenken
EMRServerless funktioniert mit einer Reihe von Eingabedatenquellen und Ausgabedatensenken:
-
Unterstützte Eingabedatenquellen — Amazon Kinesis Data Streams, Amazon Managed Streaming for Apache Kafka und selbstverwaltete Apache Kafka-Cluster. Standardmäßig enthalten EMR Amazon-Versionen 7.1.0 und höher den Amazon Kinesis Data Streams-Connector, sodass Sie keine zusätzlichen Pakete erstellen oder herunterladen müssen.
-
Unterstützte Ausgangsdatensenken — AWS Glue Data Catalog-Tabellen, Amazon S3, Amazon Redshift, MySQL, Postgre SQL Oracle, Oracle, Microsoft, Apache IcebergSQL, Delta Lake und Apache Hudi.
Überlegungen und Einschränkungen
Beachten Sie bei der Verwendung von Streaming-Jobs die folgenden Überlegungen und Einschränkungen.
-
Streaming-Jobs werden mit EMRAmazon-Versionen 7.1.0 und höher unterstützt.
-
EMRServerless geht davon aus, dass Streaming-Jobs über einen langen Zeitraum ausgeführt werden. Daher können Sie kein Ausführungs-Timeout festlegen, um die Laufzeit des Jobs zu begrenzen.
-
Streaming-Jobs sind nur mit der Spark-Engine kompatibel, die auf dem strukturierten
Streaming-Framework aufbaut. -
EMRServerless versucht auf unbestimmte Zeit, Streaming-Jobs erneut zu starten, und Sie können die Anzahl der maximalen Versuche nicht anpassen. Der Thrash-Schutz ist automatisch enthalten, um die Auftragswiederholung zu beenden, wenn die Anzahl der fehlgeschlagenen Versuche einen innerhalb eines Stundenfensters festgelegten Schwellenwert überschreitet. Der Standardschwellenwert liegt bei fünf fehlgeschlagenen Versuchen innerhalb einer Stunde. Sie können diesen Schwellenwert so konfigurieren, dass er zwischen 1 und 10 Versuchen liegt. Weitere Informationen finden Sie unter Jobresistenz.
-
Streaming-Jobs verfügen über Checkpoints, um den Laufzeitstatus und den Fortschritt zu speichern, sodass EMR Serverless den Streaming-Job vom letzten Checkpoint aus fortsetzen kann. Weitere Informationen finden Sie unter Wiederherstellung nach Fehlern mit Checkpointing
in der Apache Spark-Dokumentation.