Utilizzo di Apache Spark in Amazon Athena - Amazon Athena

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di Apache Spark in Amazon Athena

Amazon Athena facilita l'esecuzione di analisi e l'esplorazione dei dati in modo interattivo mediante Apache Spark senza la necessità di pianificare, configurare o gestire le risorse. Eseguire le applicazioni Apache Spark su Athena significa inviare il codice Spark per l'elaborazione e ricevere direttamente i risultati senza la necessità di configurazioni aggiuntive. Puoi utilizzare l'esperienza semplificata dei notebook nella console Amazon Athena per sviluppare applicazioni Apache Spark utilizzando Python o le API dei notebook Athena. Apache Spark su Amazon Athena è serverless e offre il dimensionamento automatico e on demand per l'elaborazione istantanea, in modo da far fronte ai cambiamenti dei volumi di dati e dei requisiti di elaborazione.

Amazon Athena offre le seguenti funzionalità:

  • Utilizzo della console: invia le tue applicazioni Spark dalla console Amazon Athena.

  • Scripting: crea ed esegui il debug di applicazioni Apache Spark in Python in modo rapido e interattivo.

  • Dimensionamento dinamico: Amazon Athena determina automaticamente le risorse di elaborazione e memoria necessarie per eseguire un processo e dimensiona continuamente tali risorse di conseguenza fino ai massimi specificati. Questo dimensionamento dinamico riduce i costi senza influire sulla velocità.

  • Esperienza del notebook: utilizza l'editor notebook Athena per creare, modificare ed eseguire calcoli utilizzando un'interfaccia familiare. I notebook Athena sono compatibili con i notebook Jupyter e contengono un elenco di celle che vengono eseguite in ordine sotto forma di calcoli. Il contenuto delle celle può includere codice, testo, Markdown, matematica, grafici e rich media.

Per ulteriori informazioni, consulta Esegui Spark SQL su Amazon Athena Spark ed Esplora il tuo data lake usando Amazon Athena per Apache Spark nel blog Big Data.AWS

Considerazioni e limitazioni

  • Attualmente, Amazon Athena per Apache Spark è disponibile nelle seguenti Regioni AWS:

    • Asia Pacifico (Mumbai)

    • Asia Pacifico (Singapore)

    • Asia Pacifico (Sydney)

    • Asia Pacifico (Tokyo)

    • Europa (Francoforte)

    • Europa (Irlanda)

    • Stati Uniti orientali (Virginia settentrionale)

    • Stati Uniti orientali (Ohio)

    • US West (Oregon)

  • AWS Lake Formation non è supportato.

  • Le tabelle che utilizzano la proiezione delle partizioni non sono supportate.

  • I gruppi di lavoro compatibili con Apache Spark possono utilizzare l'editor di notebook Athena, ma non l'editor di query Athena. Solo i gruppi di lavoro Athena SQL possono utilizzare l'editor di query Athena.

  • Le query di visualizzazione su più motori non sono supportate. Athena per Spark non può eseguire query suulle viste create da Athena SQL. Poiché le viste per i due motori sono implementate in modo diverso, non sono compatibili per l'uso tra motori diversi.

  • MLLib (libreria di machine learning Apache Spark) e il pyspark.ml pacchetto non sono supportati. Per un elenco delle librerie Python supportate, consulta la pagina Elenco delle librerie Python preinstallate.

  • Al momento, non pip install è supportato nelle sessioni di Athena for Spark.

  • È consentita una sola sessione attiva per notebook.

  • Quando più utenti utilizzano la console per aprire una sessione esistente in un gruppo di lavoro, accedono allo stesso notebook. Per evitare confusione, apri solo le sessioni create da te.

  • I domini di hosting per le applicazioni Apache Spark che potresti utilizzare con Amazon Athena (ad esempio, analytics-gateway.us-east-1.amazonaws.com) sono registrati nella Public Suffix List (PSL) di Internet. Se hai bisogno di impostare cookie sensibili nei tuoi domini, ti consigliamo di utilizzare i cookie con un prefisso __Host- per proteggere il tuo dominio dai tentativi di falsificazione delle richieste tra siti (CSRF). Per ulteriori informazioni, consulta la pagina Set-Cookie nella documentazione per gli sviluppatori di Mozilla.org.

  • Per informazioni sulla risoluzione dei problemi relativi a notebook, sessioni e gruppi di lavoro Spark in Athena, consulta la pagina Risoluzione dei problemi di Athena per Spark.