Uso de discos optimizados para reproducción aleatoria

Con las versiones 7.1.0 y posteriores de Amazon EMR, puede utilizar discos optimizados para la reproducción aleatoria cuando ejecute tareas de Apache Spark o Hive para mejorar el rendimiento de las operaciones (por segundo), a fin de acelerar el movimiento de los datos y reducir la latencia durante I/O-intensive workloads. Compared to standard disks, shuffle-optimized disks provide higher IOPS (I/O las operaciones de mezcla aleatoria. Los discos optimizados para la reproducción aleatoria le permiten conectar discos de hasta 2 TB por trabajador, lo que le permite configurar la capacidad adecuada para sus requisitos de cargas de trabajo.

Ventajas principales

Los discos optimizados para la reproducción aleatoria proporcionan las siguientes ventajas.

Alto rendimiento de IOPS: los discos optimizados para la reproducción aleatoria proporcionan más IOPS que los discos estándar, lo que permite una transferencia de datos más eficiente y rápida durante las tareas de Spark y Hive y otras cargas de trabajo de uso intensivo en su reproducción.
Tamaño de disco más grande: los discos optimizados para la reproducción aleatoria admiten tamaños de disco de 20 GB a 2 TB por trabajador, por lo que puede elegir la capacidad adecuada en función de sus cargas de trabajo.

Introducción

Consulte los siguientes pasos para usar discos optimizados para la reproducción aleatoria en sus flujos de trabajo.

Spark

Cree una aplicación EMR sin servidor versión 7.1.0 con el siguiente comando.


aws emr-serverless create-application \
  --type "SPARK" \
  --name my-application-name \
  --release-label emr-7.1.0 \
  --region <AWS_REGION>

Configure su trabajo de Spark para incluir los parámetros que se ejecutarán con discos optimizados para la reproducción aleatoria. spark.emr-serverless.driver.disk.type and/or spark.emr-serverless.executor.disk.type Puede utilizar uno o ambos parámetros en función de su caso de uso.


aws emr-serverless start-job-run \
    --application-id application-id \
    --execution-role-arn job-role-arn \
    --job-driver '{
        "sparkSubmit": {
            "entryPoint": "/usr/lib/spark/examples/jars/spark-examples.jar",
            "entryPointArguments": ["1"],
            "sparkSubmitParameters": "--class org.apache.spark.examples.SparkPi 
            --conf spark.executor.cores=4 
            --conf spark.executor.memory=20g 
            --conf spark.driver.cores=4 
            --conf spark.driver.memory=8g 
            --conf spark.executor.instances=1 
            --conf spark.emr-serverless.executor.disk.type=shuffle_optimized"
        }
    }'

Para obtener más información, consulte Propiedades de trabajos de Spark.

Hive

Cree una aplicación EMR sin servidor versión 7.1.0 con el siguiente comando.


aws emr-serverless create-application \
  --type "HIVE" \
  --name my-application-name \
  --release-label emr-7.1.0 \
  --region <AWS_REGION>

Configura tu trabajo de Hive para que incluya los parámetros que se ejecutarán con discos optimizados hive.driver.disk.type and/or hive.tez.disk.type para la reproducción aleatoria. Puede utilizar uno o ambos parámetros en función de su caso de uso.


aws emr-serverless start-job-run \
    --application-id application-id \
    --execution-role-arn job-role-arn \
    --job-driver '{
        "hive": {
            "query": "s3://<DOC-EXAMPLE-BUCKET>/emr-serverless-hive/query/hive-query.ql",
            "parameters": "--hiveconf hive.log.explain.output=false"
        }
    }' \
    --configuration-overrides '{
        "applicationConfiguration": [{
            "classification": "hive-site",
            "properties": {
                "hive.exec.scratchdir": "s3://<DOC-EXAMPLE-BUCKET>/emr-serverless-hive/hive/scratch",
                "hive.metastore.warehouse.dir": "s3://<DOC-EXAMPLE-BUCKET>/emr-serverless-hive/hive/warehouse",
                "hive.driver.cores": "2",
                "hive.driver.memory": "4g",
                "hive.tez.container.size": "4096",
                "hive.tez.cpu.vcores": "1",
                "hive.driver.disk.type": "shuffle_optimized",
                "hive.tez.disk.type": "shuffle_optimized"
            }
        }]
    }'

Para obtener más información, consulte Propiedades de trabajos de Hive.

Configuración de una aplicación con capacidad preinicializada

Consulte los siguientes ejemplos para crear aplicaciones basadas en la versión 7.1.0 de Amazon EMR. Estas aplicaciones tienen las propiedades siguientes:

5 controladores de Spark preinicializados, cada uno con 2 vCPU, 4 GB de memoria y 50 GB de disco optimizado para reproducción aleatoria.
50 ejecutores preinicializados, cada uno con 4 vCPU, 8 GB de memoria y 500 GB de disco optimizado para reproducción aleatoria.

Cuando esta aplicación ejecuta tareas de Spark, primero consume los trabajadores preinicializados y, a continuación, escala verticalmente los trabajadores bajo demanda hasta la capacidad máxima de 400 vCPU y 1024 GB de memoria. Si lo desea, puede omitir la capacidad del trabajador del DRIVER o del EXECUTOR.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Política de IAM de ejecución

Trabajos de streaming para procesar datos transmitidos de forma continua