Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
PySpark template analisis memerlukan skrip pengguna Python dan lingkungan virtual opsional untuk menggunakan pustaka kustom dan sumber terbuka. File-file ini disebut artefak.
Sebelum Anda membuat template analisis, pertama-tama Anda membuat artefak dan kemudian menyimpan artefak dalam ember Amazon S3. AWS Clean Rooms menggunakan artefak ini saat menjalankan pekerjaan analisis. AWS Clean Rooms hanya mengakses artefak saat menjalankan pekerjaan.
Sebelum menjalankan kode apa pun pada templat PySpark analisis, AWS Clean Rooms validasi artefak dengan:
-
Memeriksa versi objek S3 tertentu yang digunakan saat membuat template
-
Memverifikasi hash SHA-256 dari artefak
-
Gagal pekerjaan apa pun di mana artefak telah dimodifikasi atau dihapus
catatan
Ukuran maksimum semua artefak gabungan untuk templat PySpark analisis yang diberikan AWS Clean Rooms adalah 1 GB.
Keamanan untuk templat PySpark analisis
Untuk mempertahankan lingkungan komputasi yang aman, AWS Clean Rooms gunakan arsitektur komputasi dua tingkat untuk mengisolasi kode pengguna dari operasi sistem. Arsitektur ini didasarkan pada teknologi Amazon EMR Serverless Fine Grained Access Control, juga dikenal sebagai Membrane. Untuk informasi selengkapnya, lihat Membrane — Kontrol akses data yang aman dan berkinerja di Apache Spark dengan adanya kode imperatif.
Komponen lingkungan komputasi dibagi menjadi ruang pengguna dan ruang sistem yang terpisah. Ruang pengguna mengeksekusi PySpark kode dalam template PySpark analisis. AWS Clean Rooms menggunakan ruang sistem untuk memungkinkan pekerjaan berjalan termasuk menggunakan peran layanan yang disediakan oleh pelanggan untuk membaca data untuk menjalankan pekerjaan dan menerapkan daftar izin kolom. Sebagai hasil dari arsitektur ini, PySpark kode pelanggan yang mempengaruhi ruang sistem, yang dapat mencakup sejumlah kecil Spark SQL dan PySpark DataFrames APIs, diblokir.
PySpark keterbatasan dalam AWS Clean Rooms
Ketika pelanggan mengirimkan template PySpark analisis yang disetujui, AWS Clean Rooms menjalankannya di lingkungan komputasi aman sendiri yang tidak dapat diakses oleh pelanggan. Lingkungan komputasi mengimplementasikan arsitektur komputasi dengan ruang pengguna dan ruang sistem untuk melestarikan lingkungan komputasi yang aman. Untuk informasi selengkapnya, lihat Keamanan untuk templat PySpark analisis.
Pertimbangkan batasan berikut sebelum Anda menggunakannya PySpark AWS Clean Rooms.
Batasan
-
Hanya DataFrame output yang didukung
-
Sesi Spark Tunggal per eksekusi pekerjaan
Fitur yang tidak didukung
-
Manajemen data
-
Format tabel gunung es
-
LakeFormation tabel terkelola
-
Kumpulan data terdistribusi tangguh (RDD)
-
Streaming percikan
-
Kontrol akses untuk kolom bersarang
-
-
Fungsi dan ekstensi khusus
-
Fungsi tabel yang ditentukan pengguna () UDTFs
-
Sarang UDFs
-
Kelas khusus dalam fungsi yang ditentukan pengguna
-
Sumber data kustom
-
File JAR tambahan untuk:
-
Ekstensi percikan
-
Konektor
-
Konfigurasi metastore
-
-
-
Pemantauan dan analisis
-
Penebangan percikan
-
Spark UI
-
ANALYZE TABLE
perintah
-
penting
Keterbatasan ini ada untuk menjaga isolasi keamanan antara ruang pengguna dan sistem.
Semua batasan berlaku terlepas dari konfigurasi kolaborasi.
Pembaruan di masa mendatang dapat menambahkan dukungan untuk fitur tambahan berdasarkan evaluasi keamanan.
Praktik terbaik
Kami merekomendasikan praktik terbaik berikut saat membuat templat PySpark analisis.
-
Rancang templat analisis Anda PySpark keterbatasan dalam AWS Clean Rooms dengan mempertimbangkan.
-
Uji kode Anda di lingkungan pengembangan terlebih dahulu.
-
Gunakan DataFrame operasi yang didukung secara eksklusif.
-
Rencanakan struktur output Anda untuk bekerja dengan DataFrame keterbatasan.
Kami merekomendasikan praktik terbaik berikut untuk mengelola artefak
-
Simpan semua artefak template PySpark analisis dalam bucket atau awalan S3 khusus.
-
Gunakan penamaan versi yang jelas untuk versi artefak yang berbeda.
-
Buat templat analisis baru saat pembaruan artefak diperlukan.
-
Pertahankan inventaris templat mana yang menggunakan versi artefak mana.
Untuk informasi selengkapnya tentang cara menulis kode Spark, lihat berikut ini:
-
Tulis aplikasi Spark di Panduan Rilis EMR Amazon
-
Tutorial: Menulis skrip AWS Glue untuk Spark di AWS Glue Panduan Pengguna
Topik berikut menjelaskan cara membuat skrip dan pustaka pengguna Python sebelum membuat dan meninjau template analisis.