Uso de Apache Spark en Amazon Athena - Amazon Athena

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de Apache Spark en Amazon Athena

Amazon Athena facilita la ejecución interactiva del análisis y la exploración de datos mediante Apache Spark sin necesidad de planificar, configurar ni administrar los recursos. Ejecutar aplicaciones de Apache Spark en Athena significa enviar el código de Spark para su procesamiento y recibir los resultados directamente sin necesidad de configuración adicional. Puede utilizar la experiencia simplificada de cuadernos de la consola de Amazon Athena para desarrollar aplicaciones de Apache Spark mediante las API de cuadernos de Athena o Python. Apache Spark en Amazon Athena no requiere servidor y proporciona un escalado automático y bajo demanda que ofrece computación instantánea para cumplir con los cambios en los volúmenes de datos y los requisitos de procesamiento.

Amazon Athena ofrece las siguientes características:

  • Uso de la consola: envíe aplicaciones de Spark desde la consola de Amazon Athena.

  • Creación de scripts: cree y depure aplicaciones de Apache Spark en Python de forma rápida e interactiva.

  • Escalado dinámico: Amazon Athena determina automáticamente los recursos de procesamiento y memoria necesarios para ejecutar un trabajo y los escala continuamente en consecuencia hasta los máximos que usted especifique. Este escalado dinámico reduce los costos sin afectar a la velocidad.

  • Experiencia con cuadernos: utilice el editor de cuadernos de Athena para crear, editar y ejecutar cálculos mediante una interfaz familiar. Los cuadernos de Athena son compatibles con los cuadernos de Jupyter y contienen una lista de celdas que se ejecutan en orden como cálculos. El contenido de las celdas puede incluir código, texto, Markdown, cálculos, gráficos y contenido multimedia enriquecido.

Para obtener más información, consulte Explore su lago de datos con Amazon Athena para Apache Spark en el blog sobre macrodatos de AWS.

Consideraciones y limitaciones

  • Actualmente, Amazon Athena para Apache Spark está disponible en las siguientes Regiones de AWS:

    • Asia-Pacífico (Mumbai)

    • Asia-Pacífico (Singapur)

    • Asia-Pacífico (Sídney)

    • Asia-Pacífico (Tokio)

    • Europa (Fráncfort)

    • Europa (Irlanda)

    • Este de EE. UU. (Norte de Virginia)

    • Este de EE. UU. (Ohio)

    • Oeste de EE. UU. (Oregón)

  • AWS Lake Formation no se admite.

  • No se admiten las tablas que utilizan proyección de particiones.

  • Los grupos de trabajo habilitados para Apache Spark pueden usar el editor de cuadernos de Athena, pero no el editor de consultas de Athena. Solo los grupos de trabajo de Athena SQL pueden usar el editor de consultas de Athena.

  • No se admiten las consultas de vista entre motores. Athena para Spark no puede consultar las vistas creadas por Athena SQL. Dado que las vistas de los dos motores se implementan de manera diferente, no son compatibles para el uso entre motores.

  • MLlib (biblioteca de aprendizaje automático Apache Spark) y el pyspark.ml paquete no son compatibles. Para obtener una lista de las bibliotecas Python compatibles, consulte Lista de bibliotecas de Python preinstaladas.

  • Actualmente, no pip install es compatible con Athena para las sesiones de Spark.

  • Solo se permite una sesión activa por cuaderno.

  • Cuando varios usuarios utilizan la consola para abrir una sesión existente en un grupo de trabajo, acceden al mismo cuaderno. Para evitar confusiones, abra solo las sesiones que cree usted mismo.

  • Los dominios de host de las aplicaciones de Apache Spark que puede utilizar con Amazon Athena (por ejemplo, analytics-gateway.us-east-1.amazonaws.com) están registrados en la Lista de sufijos públicos (PSL) de Internet. Si alguna vez necesita configurar cookies confidenciales en sus dominios, le recomendamos que utilice cookies con un prefijo __Host- para proteger su dominio de los intentos de falsificación de solicitudes entre sitios (CSRF). Para obtener más información, consulte la página Set-Cookie en la red de desarrolladores de Mozilla.org.

  • Para obtener información sobre la solución de problemas de cuadernos, sesiones y grupos de trabajo de Spark en Athena, consulte Solución de problemas de Athena para Spark.