Usar BigQuery como origen para AWS SCT - AWS Schema Conversion Tool

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Usar BigQuery como origen para AWS SCT

Puede utilizar AWS SCT para convertir esquemas, objetos de código y código de aplicación de BigQuery a Amazon Redshift.

Privilegios para BigQuery como origen

Para usar un almacenamiento de datos de BigQuery como origen en AWS SCT, cree una cuenta de servicio. En Google Cloud, las aplicaciones usan cuentas de servicio para realizar llamadas a la API autorizadas. Las cuentas de servicio son diferentes de las cuentas de usuario. Para obtener más información, consulte Cuentas de servicio en la documentación sobre Google Cloud Identity and Access Management.

Asegúrese de asignar las siguientes funciones a su cuenta de servicio:

  • BigQuery Admin

  • Storage Admin

El rol BigQuery Admin proporciona permisos para administrar todos los recursos del proyecto. AWS SCT usa esta función para cargar tus metadatos de BigQuery en el proyecto de migración.

El rol Storage Admin otorga el control total de los objetos y buckets de datos. Puede encontrar este rol en.Cloud Storage. AWS SCT usa esta función para extraer sus datos de BigQuery y luego cargarlos en Amazon Redshift.

Para crear un archivo de clave de cuenta de servicio
  1. Inicie sesión en la consola de administración de Google Cloud en https://console.cloud.google.com/.

  2. En la página API de BigQuery, seleccione Habilitar. Omita este paso si ve API habilitada.

  3. En la página Cuentas de servicio, seleccione su proyecto y, a continuación, seleccione Crear cuenta de servicio.

  4. En la página Detalles de la cuenta de servicio, introduzca un valor descriptivo para Nombre de la cuenta de servicio. Seleccione Crear y continuar. Se abre la página Otorgar a esta cuenta de servicio acceso al proyecto.

  5. En Seleccionar un rol, seleccione BigQuery y, a continuación, seleccione Administrador de BigQuery.

  6. Elija Agregar otro rol. En Seleccionar un rol, seleccione Cloud Storage y, a continuación, seleccione Administrador de almacenamiento.

  7. Elija Continur y, a continuación, elija Guardar.

  8. En la página Cuentas de servicio, elija la cuenta de servicio que creó.

  9. Seleccione Claves y, a continuación, seleccione Crear clave nueva para Agregar clave.

  10. Elija JSON y, a continuación, elija Crear. Elija la carpeta para guardar su clave privada o seleccione la carpeta predeterminada para las descargas en su navegador.

Para exportar datos de un almacenamiento de datos de BigQuery, AWS SCT usa la carpeta del bucket de Google Cloud Storage. Cree este bucket antes de iniciar la migración de datos. Introduzca la ruta a la carpeta del bucket de Google Cloud Storage en el cuadro de diálogo Crear tarea local. Para obtener más información, consulte Crear, ejecutar y supervisar una AWS SCT tarea.

Conectar a BigQuery como origen

Utilice el siguiente procedimiento para conectarse a su proyecto de BigQuery de origen con AWS Schema Conversion Tool.

Para conectaree a un almacenamiento de datos de origen de BigQuery
  1. En AWS Schema Conversion Tool, seleccione Agregar origen.

  2. Seleccione BigQuery y, a continuación, seleccione Siguiente.

    Se abrirá el cuadro de diálogo Agregar origen.

  3. En Nombre de conexión, escriba un nombre para su proyecto de BigQuery. AWS SCT muestra este nombre en el árbol del panel izquierdo.

  4. En Ruta de la clave, introduzca la ruta al archivo de la clave de la cuenta de servicio. Para obtener más información sobre la creación de este archivo, consulte Privilegios para BigQuery como origen.

  5. Seleccione Probar la conexión para verificar que AWS SCT pueda conectarse a su proyecto de BigQuery de origen.

  6. Elija Conectar para conectarse a su proyecto de BigQuery de origen.

Limitaciones en el uso de BigQuery como origen para AWS SCT

Al utilizar BigQuery como origen para AWS SCT se aplican las siguientes limitaciones:

  • AWS SCT no admite la conversión de subconsultas en funciones analíticas.

  • No puede usar AWS SCT para convertir instrucciones SELECT AS STRUCT y SELECT AS VALUE de BigQuery.

  • AWS SCT no admite la conversión de los siguientes tipos de funciones:

    • Approximate aggregate

    • Bit

    • Debugging

    • Federated query

    • Geography

    • Hash

    • Mathematical

    • Net

    • Statistical aggregate

    • UUID

  • AWS SCT proporciona soporte limitado para la conversión de funciones de cadena.

  • AWS SCT no admite la conversión de operadores UNNEST.

  • No puede convertir operaciones de unión correlacionadas en AWS SCT.

  • AWS SCT no admite la conversión de cláusulasQUALIFY, WINDOW, LIMIT y OFFSET.

  • No puede utilizar AWS SCT para convertir expresiones de tabla comunes recursivas.

  • AWS SCT no admite la conversión de instrucciones INSERT con subconsultas dentro de cláusulas VALUES.

  • AWS SCT no admite la conversión de instrucciones UPDATE para campos anidados y registros repetidos.

  • No puede utilizar AWS SCT para convertir tipos de datos STRUCT y ARRAY.

Configuración de conversión de BigQuery a Amazon Redshift

Para editar la configuración de conversión de BigQuery a Amazon Redshift, seleccione Configuración en AWS SCT y, a continuación, elija Configuración de conversión. En la lista superior, elija BigQuery y, a continuación, elija BigQuery — Amazon Redshift. AWS SCT muestra todos los ajustes disponibles para la conversión de BigQuery a Amazon Redshift.

La configuración de conversión de BigQuery a Amazon Redshift en AWS SCT incluye opciones para lo siguiente:

  • Limitar el número de comentarios con elementos de acción en el código convertido.

    En Añadir comentarios en el código convertido para los elementos de acción de la gravedad seleccionada o superior, seleccione la gravedad de los elementos de acción. AWS SCTañade comentarios en el código convertido para los elementos de acción de la gravedad seleccionada o superior.

    Por ejemplo, para minimizar el número de comentarios en el código convertido, seleccione Solo errores. Para incluir comentarios para todos los elementos de acción del código convertido, seleccione Todos los mensajes.

  • Establecer el número máximo de tablas que AWS SCT puede aplicar a su clúster de Amazon Redshift de destino.

    En El número máximo de tablas para el clúster de Amazon Redshift de destino, elija el número de tablas que AWS SCT puede aplicar a su clúster de Amazon Redshift.

    Amazon Redshift tiene cuotas que limitan las tablas de uso para los distintos tipos de nodos de clúster. Si elige Auto, AWS SCT determina el número de tablas que se van a aplicar al clúster de Amazon Redshift de destino en función del tipo de nodo. Si lo desea, elija el valor manualmente. Para obtener más información, consulte Cuotas y límites de Amazon Redshift en la Guía de administración de Amazon Redshift.

    AWS SCT convierte todas las tablas de origen, aunque sean más de las que su clúster de Amazon Redshift puede almacenar. AWS SCTalmacena el código convertido en su proyecto y no lo aplica a la base de datos de destino. Si alcanza la cuota del clúster de Amazon Redshift para las tablas al aplicar el código convertido, AWS SCT mostrará un mensaje de advertencia. Además, AWS SCT aplica tablas a su clúster de Amazon Redshift de destino hasta que el número de tablas alcanza el límite.

  • Aplicar compresión a las columnas de la tabla de Amazon Redshift. Para ello, seleccione Usar codificación de compresión.

    AWS SCT asigna automáticamente la codificación de compresión a las columnas mediante el algoritmo Amazon Redshift predeterminado. Para obtener más información, consulte Codificaciones de compresión en la Guía para desarrolladores de bases de datos de Amazon Redshift.

    De forma predeterminada, Amazon Redshift no aplica compresión a las columnas definidas como claves de clasificación y distribución. Puede cambiar este comportamiento y aplicar compresión a estas columnas. Para ello, seleccione Usar codificación de compresión para columnas KEY. Puede seleccionar esta opción solo si selecciona la opción Usar codificación de compresión.

Configuración de optimización de la conversión de BigQuery a Amazon Redshift

Para editar la configuración de optimización de la conversión de BigQuery a Amazon Redshift, seleccione Configuración en AWS SCT y, a continuación, elija Configuración de conversión. En la lista superior, seleccione Google BigQuery y, a continuación, Google BigQuery — Amazon Redshift. En el panel izquierdo, elija Estrategias de optimización. AWS SCT muestra la configuración de optimización de la conversión para la conversión de BigQuery a Amazon Redshift.

La configuración de optimización de la conversión de BigQuery a Amazon Redshift en AWS SCT incluye opciones para lo siguiente:

  • Trabajar con optimización automática de tablas. Para ello, seleccione Utilizar el ajuste automático de tablas de Amazon Redshift.

    La optimización automática de tablas es una capacidad de autoajuste presente en Amazon Redshift que optimiza automáticamente el diseño de tablas. Para obtener más información, consulte Trabajar con optimización automática de tablas en la Guía para desarrolladores de bases de datos de Amazon Redshift.

    Para confiar únicamente en la optimización automática de las tablas, elija Ninguna en Estrategia inicial de selección de claves.

  • Elegir las claves de clasificación y distribución según su estrategia.

    Puede elegir las claves de clasificación y distribución utilizando metadatos de Amazon Redshift, información estadística o ambas opciones. En estrategia inicial de selección de claves, en la pestaña Estrategias de optimización, elija una de las siguientes opciones:

    • Utilizar metadatos e ignorar la información estadística

    • Ignorar los metadatos, utilizar información estadística

    • Utilizar metadatos e información estadística

    En función de la opción que elija, puede seleccionar estrategias de optimización. A continuación, introduzca el valor (0—100) para cada estrategia. Estos valores definen la ponderación de cada estrategia. Con estos valores de ponderación, AWS SCT define cómo influye cada regla en la elección de las claves de distribución y clasificación. Los valores predeterminados se basan en las prácticas recomendadas de migración de AWS.

    Puede definir el tamaño de las tablas pequeñas para la estrategia Buscar tablas pequeñas. En Recuento mínimo de filas de la tabla y Recuento máximo de filas de la tabla, introduzca el número mínimo y máximo de filas de una tabla para definirla como una tabla pequeña. AWS SCT aplica el estilo de distribución ALL a las tablas pequeñas. En este caso, se distribuye una copia de toda la tabla a cada nodo.

  • Configurar los detalles de la estrategia.

    Además de definir la ponderación de cada estrategia de optimización, puede configurar los ajustes de optimización. Para ello, elija Optimización de la conversión.

    • En Límite de columnas de clave de clasificación, introduzca el número máximo de columnas en la clave de clasificación.

    • En Valor de umbral descompensado, introduzca el porcentaje (0—100) de un valor descompensado para una columna. AWS SCT excluye de la lista de candidatos a la clave de distribución las columnas con un valor de sesgo superior al umbral. AWS SCT define el valor descompensado de una columna como la relación porcentual entre el número de apariciones del valor más común y el número total de registros.

    • En Consultas N principales de la tabla del historial de consultas, introduzca el número (1–100) de las consultas que se van a analizar con más frecuencia.

    • En Seleccionar usuario de estadísticas, elija el usuario de la base de datos cuyas estadísticas de consulta desee analizar.

    Además, en la pestaña Estrategias de optimización, puede definir el tamaño de las tablas pequeñas para la estrategia Buscar tablas pequeñas. En Recuento mínimo de filas de la tabla y Recuento máximo de filas de la tabla, introduzca el número mínimo y máximo de filas de una tabla para considerarla una tabla pequeña. AWS SCT aplica el estilo de distribución ALL a las tablas pequeñas. En este caso, se distribuye una copia de toda la tabla a cada nodo.