Unterstützte Plattformen So funktioniert’s Verfügbare Regionen Umfang und Anforderungen

Funktionen und Fähigkeiten

Unterstützte Plattformen

Sprachen: Python- und Scala Spark-Anwendungen
Zielplattformen: Amazon EMR, EMR Serverless und Glue AWS

So funktioniert’s

Wenn Ihre Spark-Anwendung ausfällt, können Sie den Troubleshooting-Agenten verwenden, um automatisch zu untersuchen, was schief gelaufen ist. Er analysiert Ihre Spark-Ereignisprotokolle, Fehlermeldungen und die Ressourcennutzung, um das genaue Problem zu lokalisieren — unabhängig davon, ob es sich um einen Spark-Executor handelt, dem der Speicher ausgeht, ein Konfigurationsfehler oder ein Code-Bug.

Wenn Sie eine Aufforderung in natürlicher Sprache bitten, Ihren Spark-Workload zu analysieren, stellt der Agent eine Verbindung zu den Ressourcen Ihrer Plattform her und extrahiert Funktionen (dazu gehören Spark-Ereignisprotokolle, Abfragepläne, Executor-Zeitpläne, Log-Traces, Konfigurationen und Metriken):

On EMR-EC2: Es stellt eine Verbindung zur EMR Persistent UI für den Cluster her
Auf Glue: Es erstellt den Kontext aus der Spark-Benutzeroberfläche von Glue Studio für den Job
Auf EMR-Serverless: Es stellt für den Job eine Verbindung zum EMR-Serverless Spark History Server her
Der Agent analysiert auch Ihre Error-Stack-Traces und Konfigurationsdetails, um Ihnen umsetzbare Erkenntnisse zu geben.

Bei ausgefallenen Workloads erhalten Sie eine klare Erklärung der Ursache und konkrete Schritte zur Behebung des Problems. Wenn der Agent ein Problem im Zusammenhang mit dem Code erkennt, gibt er automatisch Codeempfehlungen, die Ihnen genau zeigen, was Sie an Ihrem Code ändern müssen. Sie können auch jederzeit direkt Vorschläge auf Codeebene anfordern, ohne dass eine vollständige Analyse erforderlich ist.

Verfügbare Regionen

Der Spark Troubleshooting Agent ist in den folgenden Regionen verfügbar:

Asien-Pazifik: Tokio (ap-northeast-1), Seoul (ap-northeast-2), Singapur (ap-southeast-1), Sydney (ap-southeast-2) und Mumbai (ap-south-1)
Nordamerika: Kanada (ca-central-1)
Europa: Stockholm (eu-north-1), Irland (eu-west-1), London (eu-west-2), Paris (eu-west-3) und Frankfurt (eu-central-1)
Südamerika: São Paulo (sa-east-1)
Vereinigte Staaten: Nord-Virginia (us-east-1), Ohio (us-east-2) und Oregon (US-West-2)

Umfang der Spark-Fehlerbehebung und Benutzeranforderungen

Status der unterstützten Spark-Workloads: Die Tools unterstützen nur Antworten auf fehlgeschlagene Spark-Workloads.
Persistent EMR UI: Bei der Analyse von Amazon EC2 EMR-Workloads versucht das Analysetool, eine Verbindung zur EMR Persistent UI herzustellen, um wichtige Spark-Informationen abzurufen. Überlegungen zur persistenten Benutzeroberfläche von EMR sind hier dokumentiert.
Glue Studio Spark-Benutzeroberfläche: Bei der Analyse von AWS Glue-Workloads versucht das Analysetool, wichtige Spark-Informationen abzurufen, indem es die Spark-Ereignisprotokolle des Benutzers aus Amazon S3 analysiert. Die maximal zulässige Größe des Spark-Ereignisprotokolls ist hier dokumentiert: 512 MB und 2 GB für fortlaufende Logs.
Code-Empfehlungen: Wird nur für Amazon EMR- EC2 und AWS Glue-Workloads für Workloads unterstützt PySpark
Regionale Ressourcen: Der Spark Troubleshooting Agent ist regional und verwendet die zugrunde liegenden EMR-Ressourcen in dieser Region für den Fehlerbehebungsprozess. Die regionsübergreifende Fehlerbehebung wird nicht unterstützt.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden des Troubleshooting Agents

Problembehandlung und Fragen und Antworten