Paso 2: Crear un clúster de Amazon EMR - Amazon Redshift

Paso 2: Crear un clúster de Amazon EMR

El comando COPY carga datos de archivos en el Hadoop Distributed File System (HDFS) de Amazon EMR. Cuando cree el clúster de Amazon EMR, configúrelo para que genere archivos de datos para el HDFS del clúster.

Para crear un clúster de Amazon EMR
  1. Cree un clúster de Amazon EMR en la misma región de AWS que el clúster de Amazon Redshift.

    Si el clúster de Amazon Redshift se encuentra en una VPC, el clúster de Amazon EMR debe encontrarse en el mismo grupo de la VPC. Si el clúster de Amazon Redshift usa el modo EC2-Classic (es decir, no se encuentra en una VPC), el clúster de Amazon EMR también debe usar el modo EC2-Classic. Para obtener más información, consulte Administración de clústeres en una nube privada virtual (VPC) en la Guía de administración de Amazon Redshift.

  2. Configure el clúster para que genere archivos de datos para el HDFS del clúster. Los nombres de los archivos HDFS no deben incluir asteriscos (*) ni signos de interrogación (?).

    importante

    Los nombres de los archivos no deben incluir asteriscos (*) ni signos de interrogación (?).

  3. Especifique No en la opción Auto-terminate (Terminar automáticamente) de la configuración del clúster de Amazon EMR para que el clúster permanezca disponible mientras se ejecuta el comando COPY.

    importante

    Si se cambia o se elimina cualquiera de los archivos de datos antes de que se complete la operación COPY, se podrían obtener resultados inesperados o la operación COPY podría provocar un error.

  4. Tome nota del ID de clúster y del DNS público principal del clúster (el punto de conexión para la instancia de Amazon EC2 que aloja el clúster). Usará esa información en pasos posteriores.