Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

Integrasi Amazon Redshift untuk Apache Spark

Mode fokus
Integrasi Amazon Redshift untuk Apache Spark - Amazon Redshift

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Apache Spark adalah kerangka pemrosesan terdistribusi dan model pemrograman yang membantu Anda melakukan pembelajaran mesin, pemrosesan aliran, atau analisis grafik. Mirip dengan Apache Hadoop, Spark merupakan sistem pemrosesan terdistribusi sumber terbuka, yang biasa digunakan untuk beban kerja big data. Spark memiliki mesin eksekusi grafik asiklik terarah (DAG) yang dioptimalkan dan secara aktif menyimpan data dalam memori. Ini dapat meningkatkan kinerja, terutama untuk algoritma tertentu dan kueri interaktif.

Integrasi ini memberi Anda konektor Spark yang dapat Anda gunakan untuk membangun aplikasi Apache Spark yang membaca dan menulis ke data di Amazon Redshift dan Amazon Redshift Serverless. Aplikasi ini tidak berkompromi pada kinerja aplikasi atau konsistensi transaksional data. Integrasi ini secara otomatis disertakan dalam Amazon EMR dan AWS Glue, sehingga Anda dapat segera menjalankan pekerjaan Apache Spark yang mengakses dan memuat data ke Amazon Redshift sebagai bagian dari pipa penyerapan dan transformasi data Anda.

Saat ini, Anda dapat menggunakan versi 3.3.0, 3.3.1, 3.3.2, dan 3.4.0 dari Spark dengan integrasi ini.

Integrasi ini menyediakan yang berikut:

  • AWS Identity and Access Management (IAM) otentikasi. Untuk informasi selengkapnya, lihat Identitas dan manajemen akses di Amazon Redshift.

  • Predikat dan kueri pushdown untuk meningkatkan kinerja.

  • Jenis data Amazon Redshift.

  • Konektivitas ke Amazon Redshift dan Amazon Redshift Tanpa Server.

Pertimbangan dan batasan saat menggunakan konektor Spark

  • URI tempdir menunjuk ke lokasi Amazon S3. Direktori temp ini tidak dibersihkan secara otomatis dan dapat menambah biaya tambahan. Sebaiknya gunakan kebijakan siklus hidup Amazon S3 di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon untuk menentukan aturan penyimpanan bucket Amazon S3.

  • Secara default, salinan antara Amazon S3 dan Redshift tidak berfungsi jika bucket S3 dan cluster Redshift berada di Wilayah yang berbeda. AWS Untuk menggunakan AWS Regions terpisah, atur tempdir_region parameter ke Region bucket S3 yang digunakan untuk. tempdir

  • Cross-Region menulis antara S3 dan Redshift jika menulis data Parket menggunakan parameter. tempformat

  • Sebaiknya gunakan enkripsi sisi server Amazon S3 untuk mengenkripsi bucket Amazon S3 yang digunakan.

  • Kami merekomendasikan untuk memblokir akses publik ke bucket Amazon S3.

  • Kami menyarankan agar cluster Amazon Redshift tidak dapat diakses publik.

  • Sebaiknya aktifkan pencatatan audit Amazon Redshift.

  • Sebaiknya aktifkan enkripsi saat istirahat Amazon Redshift.

  • Sebaiknya aktifkan SSL untuk koneksi JDBC dari Spark di Amazon EMR ke Amazon Redshift.

  • Kami merekomendasikan untuk meneruskan peran IAM menggunakan parameter aws_iam_role untuk parameter autentikasi Amazon Redshift.

Di halaman ini

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.