Utilisation d'Apache Spark dans Amazon Athena - Amazon Athena

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation d'Apache Spark dans Amazon Athena

Amazon Athena facilite l'exécution interactive de l'analyse et de l'exploration des données à l'aide d'Apache Spark sans qu'il soit nécessaire de planifier, de configurer ou de gérer les ressources. Exécuter des applications Apache Spark sur Athena signifie soumettre du code Spark pour traitement et recevoir directement les résultats sans avoir besoin de configuration supplémentaire. Vous pouvez utiliser l'expérience simplifiée du bloc-notes dans la console Amazon Athena pour développer des applications Apache Spark en utilisant Python ou des API de bloc-notes Athena. Apache Spark fonctionne sur Amazon Athena sans serveur et offre une mise à l'échelle automatique et à la demande qui permet d'obtenir un calcul instantané pour répondre à l'évolution des volumes de données et des exigences de traitement.

Amazon Athena offre les fonctionnalités suivantes :

  • Utilisation de la console – Soumettez vos applications Spark à partir de la console Amazon Athena.

  • Création de scripts – Créez et déboguez rapidement et de manière interactive des applications Apache Spark en Python.

  • Dimensionnement dynamique – Amazon Athena détermine automatiquement les ressources de calcul et de mémoire nécessaires à l'exécution d'une tâche et adapte en permanence ces ressources en conséquence jusqu'aux maximums que vous spécifiez. Ce dimensionnement dynamique réduit le coût sans affecter la vitesse.

  • Expérience avec les blocs-notes – Utilisez l'éditeur de bloc-notes Athena pour créer, modifier et exécuter des calculs à l'aide d'une interface familière. Les blocs-notes Athena sont compatibles avec les blocs-notes Jupyter et contiennent une liste de cellules qui sont exécutées dans l'ordre sous forme de calculs. Le contenu des cellules peut inclure du code, du texte, du Markdown, des mathématiques, des diagrammes et des médias enrichis.

Pour plus d'informations, consultez les sections Exécuter Spark SQL sur Amazon Athena Spark et Explorez votre lac de données à l'aide d'Amazon Athena pour Apache Spark sur AWS le blog Big Data.

Considérations et restrictions

  • Actuellement, Amazon Athena pour Apache Spark est disponible dans les Régions AWS suivantes :

    • Asie-Pacifique (Mumbai)

    • Asie-Pacifique (Singapour)

    • Asie-Pacifique (Sydney)

    • Asie-Pacifique (Tokyo)

    • Europe (Francfort)

    • Europe (Irlande)

    • USA Est (Virginie du Nord)

    • USA Est (Ohio)

    • USA Ouest (Oregon)

  • AWS Lake Formation n'est pas pris en charge.

  • Les tables qui utilisent la projection de partitions ne sont pas prises en charge.

  • Les groupes de travail compatibles avec Apache Spark peuvent utiliser l'éditeur de bloc-notes Athena, mais pas l'éditeur de requêtes Athena. Seuls les groupes de travail Athena SQL peuvent utiliser l'éditeur de requêtes Athena.

  • Les requêtes de vue inter-moteurs ne sont pas prises en charge. Les vues créées par Athena SQL ne sont pas interrogeables par Athena pour Spark. Les vues des deux moteurs étant implémentées différemment, elles ne sont pas compatibles pour une utilisation inter-moteurs.

  • MLLib (bibliothèque d'apprentissage automatique Apache Spark) et le pyspark.ml package ne sont pas pris en charge. Pour obtenir la liste des bibliothèques Python prises en charge, voir Liste des bibliothèques Python préinstallées.

  • Actuellement, n'pip installest pas pris en charge dans les sessions Athena pour Spark.

  • Une seule session active par bloc-notes est autorisée.

  • Lorsque plusieurs utilisateurs utilisent la console pour ouvrir une session existante dans un groupe de travail, ils accèdent au même bloc-notes. Pour éviter toute confusion, n’ouvrez que les sessions que vous créez vous-même.

  • Les domaines d'hébergement pour les applications Apache Spark que vous pouvez utiliser avec Amazon Athena (par exemple analytics-gateway.us-east-1.amazonaws.com) sont enregistrés dans la liste des suffixes publics (PSL) Internet. Si vous devez définir des cookies sensibles dans vos domaines, nous vous recommandons d'utiliser des cookies avec un préfixe __Host- pour protéger votre domaine contre les tentatives CSRF (cross-site request forgery). Pour plus d'informations, veuillez consulter la page Set-Cookie de la documentation pour les développeurs de Mozilla.org (langue française non garantie).

  • Pour plus d'informations sur la résolution des problèmes liés aux blocs-notes, sessions et groupes de travail Spark dans Athena, voir Résolution des problèmes liés à Athena pour Spark.