Consulta de datos externos mediante Amazon Redshift Spectrum - Amazon Redshift

Consulta de datos externos mediante Amazon Redshift Spectrum

Con Amazon Redshift Spectrum, puede consultar y recuperar de manera eficiente los datos estructurados y semiestructurados de los archivos en Amazon S3 sin tener que cargar los datos en tablas de Amazon Redshift. Las consultas de Redshift Spectrum emplean un paralelismo a gran escala para ejecutar muy rápido grandes conjuntos de datos. Gran parte del procesamiento se produce en la capa de Redshift Spectrum, mientras que la mayoría de los datos permanece en Amazon S3. Varios clústeres pueden consultar el mismo conjunto de datos en Amazon S3 al mismo tiempo sin tener que generar copias de los datos para cada clúster.

Información general sobre Amazon Redshift Spectrum

Amazon Redshift Spectrum se encuentra en servidores de Amazon Redshift dedicados que no dependen del clúster. Amazon Redshift inserta muchas tareas de computación intensiva, como el filtrado y la agregación de predicados, en la capa de Redshift Spectrum. Por lo tanto, las consultas de Redshift Spectrum utilizan mucha menos capacidad de procesamiento de su clúster que otras consultas. Redshift Spectrum también escala de manera inteligente. Según la demanda de las consultas, Redshift Spectrum puede utilizar miles de instancias para aprovechar el procesamiento masivo en paralelo.

Puede crear tablas de Redshift Spectrum al definir la estructura para sus archivos y registrarlos como tablas en un catálogo de datos externo. El catálogo de datos externo puede ser AWS Glue, el catálogo de datos que incluye Amazon Athena o su propio metastore de Apache Hive. Puede crear y administrar tablas externas desde Amazon Redshift mediante comandos de lenguaje de definición de datos (DDL) o cualquier otra herramienta que se conecte al catálogo de datos externo. Los cambios en el catálogo de datos externo están disponibles de inmediato en cualquiera de los clústeres de Amazon Redshift.

Opcionalmente, puede particionar las tablas externas en una o más columnas. Definir las particiones como parte de la tabla externa puede mejorar el rendimiento. La mejora se produce porque el optimizador de consultas de Amazon Redshift elimina las particiones que no tienen datos para la consulta.

Después de que se hayan definido las tablas de Redshift Spectrum, puede consultar y combinar las tablas de la misma manera en que lo hace con cualquier otra tabla de Amazon Redshift. Redshift Spectrum no permite realizar operaciones de actualización en tablas externas. Puede agregar tablas de Redshift Spectrum a distintos clústeres de Amazon Redshift y consultar los mismos datos de Amazon S3 desde cualquier clúster que esté en la misma región de AWS. Cuando actualiza los archivos de datos de Amazon S3, los datos están disponibles de inmediato para consultarlos desde cualquiera de los clústeres de Amazon Redshift.

El catálogo de datos de AWS Glue al que obtiene acceso podría estar cifrado para aumentar la seguridad. Si el catálogo de AWS Glue está cifrado, necesitará la clave de AWS Key Management Service (AWS KMS) para que AWS Glue pueda obtener acceso al catálogo de AWS Glue. El cifrado del catálogo de AWS Glue no está disponible en todas las regiones de AWS. Para obtener una lista de las regiones de AWS admitidas, consulte Cifrado y acceso seguro para AWS Glue en la Guía para desarrolladores de AWS Glue. Para obtener más información sobre el cifrado del catálogo de datos de AWS Glue, consulte Cifrado de su catálogo de datos de AWS Glue en la Guía para desarrolladores de AWS Glue.

nota

No puede ver los detalles de las tablas de Redshift Spectrum con los mismos recursos que utiliza para las tablas de Amazon Redshift estándar, como PG_TABLE_DEF, STV_TBL_PERM, PG_CLASS o information_schema. Si su herramienta de análisis o inteligencia empresarial no reconoce las tablas externas de Redshift Spectrum, configure la aplicación para consultar SVV_EXTERNAL_TABLES y SVV_EXTERNAL_COLUMNS.

Regiones de Amazon Redshift Spectrum

Redshift Spectrum está disponible en las Regiones de AWS donde esté disponible Amazon Redshift, a menos que se indique lo contrario en la documentación específica de las regiones. Para conocer la disponibilidad de Región de AWS en regiones comerciales, consulte Puntos de conexión de servicio para la API de Redshift en la Referencia general de Amazon Web Services.

Consideraciones de Amazon Redshift Spectrum

Tenga en cuenta las siguientes consideraciones cuando utilice Amazon Redshift Spectrum:

  • El clúster de Amazon Redshift y el bucket de Amazon S3 deben estar en la misma región de AWS.

  • Redshift Spectrum no admite el enrutamiento de VPC mejorado con clústeres aprovisionados. Para acceder a sus datos de Amazon S3, es posible que deba realizar pasos de configuración adicionales. Para obtener más información, consulte Redshift Spectrum y enrutamiento de VPC mejorado en la Guía de administración de Amazon Redshift.

  • Redshift Spectrum es compatible con los alias de puntos de acceso de Amazon S3. Para obtener más información, consulte Uso de un alias de estilo bucket en su punto de acceso en la Guía del usuario de Amazon Simple Storage Service. No obstante, Redshift Spectrum no admite la VPC con alias de punto de acceso de Amazon S3. Para obtener más información, consulte Redshift Spectrum y enrutamiento de VPC mejorado en la Guía de administración de Amazon Redshift.

  • No puede realizar operaciones de actualización o eliminación en tablas externas. Para crear una nueva tabla externa en el esquema especificado, puede utilizar CREATE EXTERNAL TABLE. Para obtener más información acerca de CREATE EXTERNAL TABLE AS, consulte CREATE EXTERNAL TABLE. Para insertar los resultados de una consulta SELECT en tablas externas existentes en catálogos externos, puede utilizar INSERT (tabla externa). Para obtener más información acerca de INSERT (tabla externa), consulte INSERT (tabla externa).

  • A menos que esté utilizando un AWS Glue Data Catalog habilitado para AWS Lake Formation, no puede controlar los permisos de usuario en una tabla externa. En cambio, sí puede conceder y revocar permisos en el esquema externo. Para obtener más información sobre el uso de AWS Lake Formation, consulte Uso de Redshift Spectrum con AWS Lake Formation.

  • Para ejecutar consultas de Redshift Spectrum, el usuario de la base de datos debe tener permiso para crear tablas temporales en ella. En el siguiente ejemplo, se concede un permiso temporal para la base de datos spectrumdb al grupo de usuarios spectrumusers.

    grant temp on database spectrumdb to group spectrumusers;

    Para obtener más información, consulte GRANT.

  • Cuando utilice el catálogo de datos de Athena o de AWS Glue como almacén de metadatos, consulte Cuotas y límites en la Guía de administración de Amazon Redshift.

  • Redshift Spectrum no es compatible con Amazon EMR con Kerberos.