Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Integrasi Amazon Redshift untuk Apache Spark
Percikan Apache
Integrasi ini memberi Anda konektor Spark yang dapat Anda gunakan untuk membangun aplikasi Apache Spark yang membaca dan menulis ke data di Amazon Redshift dan Amazon Redshift Serverless. Aplikasi ini tidak berkompromi pada kinerja aplikasi atau konsistensi transaksional data. Integrasi ini secara otomatis disertakan dalamEMRdanAWS Glue, sehingga Anda dapat segera menjalankan pekerjaan Apache Spark yang mengakses dan memuat data ke Amazon Redshift sebagai bagian dari pipa penyerapan dan transformasi data Anda.
Saat ini, Anda dapat menggunakan versi 3.3.0, 3.3.1, 3.3.2, dan 3.4.0 dari Spark dengan integrasi ini.
Integrasi ini memberikan yang berikut:
-
AWS Identity and Access Management(IAM). Untuk informasi selengkapnya, lihatIdentitas dan manajemen akses di Amazon Redshift.
-
Predikat dan kueri pushdown untuk meningkatkan kinerja.
-
Jenis data Amazon Redshift.
-
Konektivitas ke Amazon Redshift dan Amazon Redshift Tanpa Server.
Pertimbangan dan batasan saat menggunakan konektor Spark
-
URI tempdir menunjuk ke lokasi Amazon S3. Direktori temp ini tidak dibersihkan secara otomatis dan dapat menambah biaya tambahan. Kami merekomendasikan penggunaanKebijakan siklus hidup Amazon S3diPanduan Pengguna Layanan Penyimpanan Sederhana Amazonuntuk menentukan aturan retensi untuk bucket Amazon S3.
-
Secara default, salinan antara Amazon S3 dan Redshift tidak berfungsi jika bucket S3 dan cluster Redshift berbedaAWSDaerah. Untuk menggunakan terpisahAWSDaerah, atur
tempdir_region
parameter ke wilayah bucket S3 yang digunakan untuktempdir
. -
Cross-Region menulis antara S3 dan Redshift jika menulis data Parket menggunakan
tempformat
parameter. -
Kami merekomendasikan penggunaanEnkripsi sisi server Amazon S3untuk mengenkripsi ember Amazon S3 yang digunakan.
-
Kami merekomendasikanmemblokir akses publik ke bucket Amazon S3.
-
Kami menyarankan agar cluster Amazon Redshift tidak dapat diakses oleh publik.
-
Kami merekomendasikan untuk menyalakanPencatatan audit Amazon Redshift.
-
Kami merekomendasikan untuk menyalakanEnkripsi saat istirahat Amazon Redshift.
-
Sebaiknya aktifkan SSL untuk koneksi JDBC dari Spark di Amazon EMR ke Amazon Redshift.
-
Kami merekomendasikan untuk meneruskan peran IAM menggunakan parameter
aws_iam_role
untuk parameter otentikasi Amazon Redshift.