Penyetelan Spark SQL kueri untuk AWS Glue dan Amazon EMR Spark pekerjaan - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyetelan Spark SQL kueri untuk AWS Glue dan Amazon EMR Spark pekerjaan

Phani Alapaty dan Ravikiran Rao, Amazon Web Services ()AWS

Januari 2024 (sejarah dokumen)

Spark SQLadalah sebuah Apache Spark modul untuk memproses data terstruktur. Amazon EMR dan penggunaan pekerjaan AWS Glue Spark SQL untuk memproses, mengubah, dan memuat data. Berbeda dengan dasar Spark API kumpulan data terdistribusi (RDD) tangguh, Spark SQL antarmuka memberikan informasi lebih lanjut Spark tentang struktur data dan perhitungan yang dilakukan. Secara internal, Spark SQL menggunakan informasi tambahan ini untuk melakukan optimasi kueri tambahan. Ada beberapa cara untuk berinteraksi dengan Spark SQL, termasuk SQL dan Dataset API.

Bergabung dengan data adalah salah satu operasi paling umum dan penting yang dapat Anda lakukan saat mengekstraksi, mengubah, atau memuat data ke dalam penyimpanan objek atau database. Saat bergabung, Anda perlu mempertimbangkan kinerja. Ada beberapa skenario, seperti transfer jaringan besar, ketika beberapa operasi gabungan, analisis, atau agregat kehabisan memori. Hal ini dapat menyebabkan AWS Glue Spark pekerjaan untuk gagal.

Panduan ini memberikan praktik terbaik yang membantu Anda menyetel Spark SQL bergabung dengan kueri untuk AWS Glue atau pekerjaan EMR Amazon. Spark menyediakan banyak opsi konfigurasi yang meningkatkan kinerja Spark SQL beban kerja. Penyesuaian ini dapat dilakukan secara terprogram, atau Anda dapat menerapkannya di tingkat global dengan menggunakan perintah. spark-submit Panduan ini menjelaskan beberapa konfigurasi ini sehingga Anda dapat meningkatkan atau menyempurnakan kinerja Spark SQL kueri dan aplikasi. Rekomendasi dalam panduan ini didasarkan pada konfigurasi yang digunakan Layanan AWS Profesional untuk meningkatkan kinerja Spark SQL kueri dan aplikasi.

Audiens yang dituju

Panduan ini membantu arsitek, insinyur data, ilmuwan data, dan pengembang memahami Spark SQL opsi konfigurasi yang meningkatkan kinerja Spark SQL pertanyaan.