Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan klasifikasi pengirim pekerjaan
Gambaran Umum
Amazon EMR di EKSStartJobRun
permintaan menciptakanpengirim pekerjaanpod (juga dikenal sebagaipekerjaan-pelaripod) untuk menelurkan driver Spark. Kamu dapat mengonfigurasi selektor node untuk pod submitter pekerjaanmu denganemr-job-submitter
klasifikasi.
Pengaturan berikut tersedia di bawahemr-job-submitter
klasifikasi:
jobsubmitter.node.selector.[
labelKey
]-
Menambahkan ke pemilih node dari pod submitter pekerjaan, dengan kunci
dan nilai sebagai nilai konfigurasi untuk konfigurasi. Misalnya, Anda dapat mengaturlabelKey
jobsubmitter.node.selector.identifier
kepadamyIdentifier
dan pod job submitter akan memiliki pemilih node dengan nilai pengenal kuncimyIdentifier
. Untuk menambahkan beberapa kunci pemilih node, atur beberapa konfigurasi dengan awalan ini.
Sebagai praktik terbaik, kami merekomendasikan bahwa pod pengirim pekerjaan memilikipenempatan node pada Instans On Demanddan bukan pada Instans Spot. Hal ini dikarenakan suatu pekerjaan akan gagal jika Pod submitter job mengalami interupsi Spot Instance. Anda juga bisatempatkan pod pengirim pekerjaan dalam satu Availability Zone, ataumenggunakan label Kubernetes yang diterapkan pada node.
Contoh klasifikasi pengirim pekerjaan
Dalam bagian ini
StartJobRun
request dengan penempatan Node On-Demand untuk pod job submitter
cat >spark-python-in-s3-nodeselector-job-submitter.json << EOF { "name": "spark-python-in-s3-nodeselector", "virtualClusterId": "
virtual-cluster-id
", "executionRoleArn": "execution-role-arn
", "releaseLabel": "emr-6.11.0-latest
", "jobDriver": { "sparkSubmitJobDriver": { "entryPoint": "s3://S3-prefix
/trip-count.py", "sparkSubmitParameters": "--conf spark.driver.cores=5 --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.dynamicAllocation.enabled":"false" } }, { "classification": "emr-job-submitter", "properties": { "jobsubmitter.node.selector.eks.amazonaws.com/capacityType": "ON_DEMAND" } } ], "monitoringConfiguration": { "cloudWatchMonitoringConfiguration": { "logGroupName": "/emr-containers/jobs", "logStreamNamePrefix": "demo" }, "s3MonitoringConfiguration": { "logUri": "s3://joblogs" } } } } EOF aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-job-submitter.json
StartJobRun
request dengan penempatan node Single-AZ untuk pod job submitter
cat >spark-python-in-s3-nodeselector-job-submitter-az.json << EOF { "name": "spark-python-in-s3-nodeselector", "virtualClusterId": "
virtual-cluster-id
", "executionRoleArn": "execution-role-arn
", "releaseLabel": "emr-6.11.0-latest
", "jobDriver": { "sparkSubmitJobDriver": { "entryPoint": "s3://S3-prefix
/trip-count.py", "sparkSubmitParameters": "--conf spark.driver.cores=5 --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.dynamicAllocation.enabled":"false" } }, { "classification": "emr-job-submitter", "properties": { "jobsubmitter.node.selector.topology.kubernetes.io/zone": "Availability Zone
" } } ], "monitoringConfiguration": { "cloudWatchMonitoringConfiguration": { "logGroupName": "/emr-containers/jobs", "logStreamNamePrefix": "demo" }, "s3MonitoringConfiguration": { "logUri": "s3://joblogs" } } } } EOF aws emr-containers start-job-run --cli-input-json file:///spark-python-in-s3-nodeselector-job-submitter-az.json
StartJobRun
permintaan dengan penempatan tipe instans Single-AZ dan Amazon EC2 untuk pod pengirim pekerjaan
{ "name": "spark-python-in-s3-nodeselector", "virtualClusterId": "
virtual-cluster-id
", "executionRoleArn": "execution-role-arn
", "releaseLabel": "emr-6.11.0-latest
", "jobDriver": { "sparkSubmitJobDriver": { "entryPoint": "s3://S3-prefix
/trip-count.py", "sparkSubmitParameters": "--conf spark.driver.cores=5 --conf spark.kubernetes.pyspark.pythonVersion=3 --conf spark.executor.memory=20G --conf spark.driver.memory=15G --conf spark.executor.cores=6 --conf spark.sql.shuffle.partitions=1000" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.dynamicAllocation.enabled":"false", } }, { "classification": "emr-job-submitter", "properties": { "jobsubmitter.node.selector.topology.kubernetes.io/zone": "Availability Zone
", "jobsubmitter.node.selector.node.kubernetes.io/instance-type":"m5.4xlarge
" } } ], "monitoringConfiguration": { "cloudWatchMonitoringConfiguration": { "logGroupName": "/emr-containers/jobs", "logStreamNamePrefix": "demo" }, "s3MonitoringConfiguration": { "logUri": "s3://joblogs" } } } }