Résolution des problèmes - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Résolution des problèmes

Lorsque vous travaillez avec des clusters Amazon EMR à partir d'ordinateurs portables Studio ou Studio Classic, vous pouvez rencontrer divers problèmes ou défis potentiels au cours du processus de connexion ou d'utilisation. Pour vous aider à résoudre ces erreurs, cette section fournit des conseils sur les problèmes courants qui peuvent survenir.

Les erreurs suivantes peuvent survenir lors de la connexion ou de l'utilisation de clusters Amazon EMR à partir d'ordinateurs portables Studio ou Studio Classic.

Résolution des problèmes de blocage ou d'échec des connexions Livy

Les problèmes de connectivité Livy suivants peuvent survenir lors de l'utilisation de clusters Amazon EMR à partir d'ordinateurs portables Studio ou Studio Classic.

  • Votre cluster Amazon EMR a rencontré une out-of-memory erreur.

    Une connexion Livy peut se bloquer ou échouer si votre cluster Amazon EMR a rencontré out-of-memory une erreur. sparkmagic

    Par défaut, le paramètre de configuration Java du pilote Apache Spark, spark.driver.defaultJavaOptions, est défini sur -XX:OnOutOfMemoryError='kill -9 %p'. Cela signifie que l'action par défaut effectuée lorsque le programme pilote rencontre une OutOfMemoryError est de résilier le programme pilote en envoyant un signal SIGKILL. Lorsque le pilote Apache Spark est résilié, toute connexion Livy via sparkmagic dépend du blocage ou de l'échec de ce pilote. Cela est dû au fait que le pilote Spark est responsable de la gestion des ressources de l'application Spark, notamment de la planification et de l'exécution des tâches. Sans le pilote, l'application Spark ne peut pas fonctionner et toute tentative d'interaction avec celui-ci échoue.

    Si vous pensez que votre cluster Spark rencontre des problèmes de mémoire, vous pouvez consulter les journaux Amazon EMR. Les conteneurs tués en raison d' out-of-memory erreurs sortent généralement avec un code de137. Dans ce cas, vous devez redémarrer l'application Spark et établir une nouvelle connexion Livy pour reprendre l'interaction avec le cluster Spark.

    Vous pouvez vous référer à l'article de la base de connaissances Comment résoudre l'erreur « Conteneur tué par YARN pour dépassement des limites de mémoire » dans Spark on Amazon EMR ? AWS re:Post pour en savoir plus sur les différentes stratégies et paramètres qui peuvent être utilisés pour résoudre un out-of-memory problème.

    Nous vous recommandons de consulter les Guides de bonnes pratiques Amazon EMR pour connaître les bonnes pratiques et les conseils de réglage relatifs à l'exécution des charges de travail Apache Spark sur vos clusters Amazon EMR.

  • Votre session Livy expire lorsque vous vous connectez à un cluster Amazon EMR pour la première fois.

    Lorsque vous vous connectez pour la première fois à un cluster Amazon EMR à l'aide d'Apache Livy sagemaker-studio-analytics-extension, qui permet la connexion à un cluster Spark (Amazon EMR) distant via la SparkMagicbibliothèque à l'aide d'Apache Livy, vous pouvez rencontrer une erreur de délai de connexion :

    An error was encountered: Session 0 did not start up in 60 seconds.

    Si votre cluster Amazon EMR nécessite l'initialisation d'une application Spark lors de l'établissement d'une connexion, il y a un risque accru de voir apparaître des erreurs de délai de connexion.

    Pour réduire les risques de délais d'attente lors de la connexion à un cluster Amazon EMR à l'aide de Livy via l'extension d'analyse sagemaker-studio-analytics-extension version 0.0.19, remplacez le délai d'expiration de session du serveur par défaut par 120 secondes au lieu du délai par défaut de sparkmagic de 60 secondes.

    Nous vous recommandons de mettre à jour votre extension 0.0.18 en exécutant la commande de mise à niveau suivante.

    pip install --upgrade sagemaker-studio-analytics-extension

    Notez que lorsque vous fournissez une configuration de délai d'expiration personnalisée dans sparkmagic, sagemaker-studio-analytics-extension respecte cette dérogation. Cependant, la définition du délai d'expiration de session sur 60 secondes déclenche automatiquement le délai d'expiration de session du serveur par défaut de 120 secondes dans sagemaker-studio-analytics-extension.