¿Cuándo debo utilizar Athena? - Amazon Athena

¿Cuándo debo utilizar Athena?

Los servicios de consultas como Amazon Athena, los almacenamientos de datos como Amazon Redshift y los sofisticados marcos de procesamiento de datos como Amazon EMR abordan diferentes necesidades y casos de uso. Las siguientes orientaciones pueden ayudar a elegir uno o varios servicios en función de sus requisitos.

Amazon Athena

Athena lo ayuda a analizar datos no estructurados, semiestructurados y estructurados almacenados en Amazon S3. Algunos ejemplos son datos en CSV, JSON o con formatos de columnas, como Apache Parquet y Apache ORC. Puede utilizar Athena para ejecutar consultas ad hoc con ANSI SQL y sin necesidad de agregar los datos o cargarlos en Athena.

Athena se integra con Amazon QuickSight para facilitar la visualización de datos. Puede utilizar Athena para generar informes o para explorar datos con herramientas de inteligencia empresarial o clientes SQL conectados mediante un controlador ODBC o JDBC. Para obtener más información consulte Qué es Amazon QuickSight en la Guía del usuario de Amazon QuickSight y en Conexión a Amazon Athena con controladores ODBC y JDBC.

Athena se integra con AWS Glue Data Catalog, que ofrece un almacén de metadatos persistente para los datos en Amazon S3. Esto le permite crear tablas y consultar datos en Athena partiendo de un almacén de metadatos central disponible en toda su cuenta de Amazon Web Services e integrado con ETL y las características de descubrimiento de datos de AWS Glue. Para obtener más información, consulte Integración con AWS Glue y ¿Qué es AWS Glue¿ en la Guía para desarrolladores de AWS Glue.

Amazon Athena facilita la ejecución de consultas interactivas con datos directamente en Simple Storage Service (Amazon S3) sin tener que dar formato a los datos ni administrar la infraestructura. Por ejemplo, Athena es útil si desea ejecutar una consulta rápida en los registros web para solucionar un problema de rendimiento en su sitio. Con Athena, puede comenzar rápidamente: basta con definir una tabla para los datos y comenzar a realizar consultas mediante SQL estándar.

Conviene utilizar Amazon Athena si desea ejecutar consultas SQL ad hoc interactivas con datos de Simple Storage Service (Amazon S3), sin tener que administrar ninguna infraestructura o clústeres. Amazon Athena proporciona la forma más sencilla de ejecutar consultas ad hoc para datos en Simple Storage Service (Amazon S3) sin necesidad de configurar ni administrar ningún servidor.

Para obtener una lista de Servicios de AWS que utiliza o con los que se integra Athena, consulte Integraciones de los Servicio de AWS con Athena.

Amazon EMR

Amazon EMR simplifica y hace que resulte rentable ejecutar marcos de procesamiento altamente distribuidos como Hadoop, Spark y Presto en comparación con las implementaciones en las instalaciones. Amazon EMR es flexible: puede ejecutar aplicaciones y código personalizados y definir parámetros específicos de computación, memoria, almacenamiento y aplicaciones para optimizar sus requisitos de análisis.

Además de ejecutar consultas SQL, Amazon EMR puede ejecutar una amplia variedad de tareas de procesamiento de datos de escalado horizontal para aplicaciones como machine learning, análisis de gráficos, transformación de datos, datos de streaming y prácticamente cualquier cosa que pueda codificar. Conviene utilizar Amazon EMR si utiliza código personalizado para procesar y analizar conjuntos de datos extremadamente grandes con los marcos de procesamiento de macrodatos más recientes, tales como Spark, Hadoop, Presto o Hbase. Amazon EMR proporciona un control total sobre la configuración de los clústeres y el software instalado en ellos.

Puede utilizar Amazon Athena para consultar datos que procese mediante Amazon EMR. Amazon Athena admite muchos de los mismos formatos de datos que Amazon EMR. El catálogo de datos de Athena es compatible con metaalmacenes de Hive. Si utiliza EMR y ya tiene un metaalmacén de Hive, puede ejecutar las instrucciones DDL en Amazon Athena y consultar los datos inmediatamente sin que ello afecte a los trabajos de Amazon EMR.

Amazon Redshift

Un almacenamiento de datos como Amazon Redshift es la mejor opción cuando se necesita reunir datos de muchos orígenes diferentes, como sistemas de inventario, sistemas financieros y sistemas de ventas minoristas, en un formato común y almacenarlos durante largos periodos de tiempo. Si desea crear informes empresariales sofisticados a partir de datos históricos, entonces un almacenamiento de datos como Amazon Redshift es la mejor opción. El motor de consultas de Amazon Redshift se ha optimizado para que funcione especialmente bien en la ejecución de consultas complejas que unen un gran número de tablas de bases de datos muy grandes. Cuando necesite ejecutar consultas sobre datos altamente estructurados con muchas combinaciones en muchas tablas muy grandes, elija Amazon Redshift.

Para obtener más información acerca de cuándo utilizar Athena, consulte los recursos a continuación: