Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Penyetelan Spark SQL kueri untuk AWS Glue dan Amazon EMR Spark pekerjaan
Phani Alapaty dan Ravikiran Rao, Amazon Web Services ()AWS
Januari 2024 (sejarah dokumen)
Spark SQL
Bergabung dengan data adalah salah satu operasi paling umum dan penting yang dapat Anda lakukan saat mengekstraksi, mengubah, atau memuat data ke dalam penyimpanan objek atau database. Saat bergabung, Anda perlu mempertimbangkan kinerja. Ada beberapa skenario, seperti transfer jaringan besar, ketika beberapa operasi gabungan, analisis, atau agregat kehabisan memori. Hal ini dapat menyebabkan AWS Glue Spark pekerjaan untuk gagal.
Panduan ini memberikan praktik terbaik yang membantu Anda menyetel Spark SQL bergabung dengan kueri untuk AWS Glue atau pekerjaan EMR Amazon. Spark menyediakan banyak opsi konfigurasi yang meningkatkan kinerja Spark SQL beban kerja. Penyesuaian ini dapat dilakukan secara terprogram, atau Anda dapat menerapkannya di tingkat global dengan menggunakan perintah. spark-submit
Panduan ini menjelaskan beberapa konfigurasi ini sehingga Anda dapat meningkatkan atau menyempurnakan kinerja Spark SQL kueri dan aplikasi. Rekomendasi dalam panduan ini didasarkan pada konfigurasi yang digunakan Layanan AWS
Profesional untuk meningkatkan kinerja Spark SQL kueri dan aplikasi.
Audiens yang dituju
Panduan ini membantu arsitek, insinyur data, ilmuwan data, dan pengembang memahami Spark SQL opsi konfigurasi yang meningkatkan kinerja Spark SQL pertanyaan.