Menggunakan petunjuk partisi di Spark 3.0.0 - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan petunjuk partisi di Spark 3.0.0

Spark petunjuk partisi dapat membantu Anda menyetel kinerja dan mengurangi jumlah file output. Spark SQL mendukung petunjuk partisi, sepertiCOALESCE,, dan. REPARTITION REPARTITION_BY_RANGE Petunjuk ini mirip dengan Dataset APIs, seperti, coalescerepartition, dan. repartitionByRange Petunjuk berikut membantu Anda mengontrol jumlah file output Spark SQL, yang membantu Anda menyetel kinerja:

  • Coalesce - Kurangi jumlah partisi ke jumlah partisi yang ditentukan. Nomor partisi adalah satu-satunya parameter COALESCE petunjuk.

  • Repartition - Repartisi ke jumlah partisi yang ditentukan dengan menggunakan ekspresi partisi yang ditentukan. Parameter REPARTITION petunjuk adalah nomor partisi, nama kolom, atau keduanya.

  • Partisi ulang berdasarkan rentang - Repartisi ke jumlah partisi yang ditentukan dengan menggunakan ekspresi partisi yang ditentukan. Nama kolom adalah parameter yang diperlukan untuk REPARTITION_BY_RANGE petunjuk, dan nomor partisi adalah opsional.

  • Rebalance - Menyeimbangkan kembali partisi output hasil query sehingga setiap partisi adalah ukuran yang wajar. REBALANCEparameter petunjuk adalah nomor partisi awal, nama kolom, atau keduanya atau tidak keduanya.