Configure aplicaciones - Amazon EMR

Configure aplicaciones

Para anular las configuraciones predeterminadas de una aplicación, puede subministrar un objeto de configuración. Puede utilizar tanto una sintaxis abreviada para proporcionar la configuración como hacer referencia al objeto de configuración en un archivo JSON. Los objetos de configuración se componen de una clasificación, propiedades y configuraciones anidadas opcionales. Las propiedades corresponden a la configuración de la aplicación que desee cambiar. Es posible especificar varias clasificaciones para varias aplicaciones en un solo objeto JSON.

aviso

Las operaciones de la API de descripción y lista de Amazon EMR emiten configuraciones personalizadas, que se pueden establecer y que se utilizan como parte de los flujos de trabajo de Amazon EMR, en texto sin formato. Para incluir información confidencial, como contraseñas, en estas configuraciones, consulte Almacenamiento de datos de configuración confidenciales en AWS Secrets Manager.

Las clasificaciones de configuración disponibles varían según la versión de Amazon EMR. Para obtener una lista de las clasificaciones de configuración compatibles con una versión de lanzamiento concreta, consulte la página correspondiente a esa versión en la sección Acerca de las versiones de Amazon EMR.

A continuación se muestra un ejemplo de archivo de JSON para obtener una lista de configuraciones.

[ { "Classification": "core-site", "Properties": { "hadoop.security.groups.cache.secs": "250" } }, { "Classification": "mapred-site", "Properties": { "mapred.tasktracker.map.tasks.maximum": "2", "mapreduce.map.sort.spill.percent": "0.90", "mapreduce.tasktracker.reduce.tasks.maximum": "5" } } ]

Una clasificación de configuración suele corresponderse con un archivo de configuración específico de la aplicación. Por ejemplo, la clasificación hive-site se corresponde con los valores del archivo de configuración hive-site.xml de Hive. Una excepción es la acción de arranque configure-daemons ya no admitida, que se utiliza para establecer parámetros de entorno como --namenode-heap-size. Las opciones de este tipo se engloban en las clasificaciones hadoop-env y yarn-env con sus propias clasificaciones de exportación anidadas. Si alguna clasificación termina por env, debe utilizar la subclasificación de exportación.

Otra excepción es s3get, que se utiliza para colocar un objeto EncryptionMaterialsProvider del cliente en cada nodo de un clúster para su uso en cifrado del cliente. Se ha añadido una opción a la clasificación emrfs-site para este fin.

A continuación se muestra un ejemplo de la clasificación hadoop-env.

[ { "Classification": "hadoop-env", "Properties": { }, "Configurations": [ { "Classification": "export", "Properties": { "HADOOP_DATANODE_HEAPSIZE": "2048", "HADOOP_NAMENODE_OPTS": "-XX:GCTimeRatio=19" }, "Configurations": [ ] } ] } ]

A continuación se muestra un ejemplo de la clasificación yarn-env.

[ { "Classification": "yarn-env", "Properties": { }, "Configurations": [ { "Classification": "export", "Properties": { "YARN_RESOURCEMANAGER_OPTS": "-Xdebug -Xrunjdwp:transport=dt_socket" }, "Configurations": [ ] } ] } ]

Los siguientes ajustes no pertenecen a un archivo de configuración, pero los utiliza Amazon EMR para configurar potencialmente diversos ajustes en su nombre.

Ajustes mantenidos por Amazon EMR
Aplicación Clasificación de etiqueta de la versión Propiedades válidas Cuándo se debe usar
Spark spark maximizeResourceAllocation Configure ejecutores para utilizar los recursos máximos de cada nodo.