PySpark template analisis

PySpark template analisis memerlukan skrip pengguna Python dan lingkungan virtual opsional untuk menggunakan pustaka kustom dan sumber terbuka. File-file ini disebut artefak.

Sebelum Anda membuat template analisis, pertama-tama Anda membuat artefak dan kemudian menyimpan artefak dalam ember Amazon S3. AWS Clean Rooms menggunakan artefak ini saat menjalankan pekerjaan analisis. AWS Clean Rooms hanya mengakses artefak saat menjalankan pekerjaan.

Sebelum menjalankan kode apa pun pada templat PySpark analisis, AWS Clean Rooms validasi artefak dengan:

Memeriksa versi objek S3 tertentu yang digunakan saat membuat template
Memverifikasi hash SHA-256 dari artefak
Gagal pekerjaan apa pun di mana artefak telah dimodifikasi atau dihapus

catatan

Ukuran maksimum semua artefak gabungan untuk templat PySpark analisis yang diberikan AWS Clean Rooms adalah 1 GB.

Keamanan untuk templat PySpark analisis

Untuk mempertahankan lingkungan komputasi yang aman, AWS Clean Rooms gunakan arsitektur komputasi dua tingkat untuk mengisolasi kode pengguna dari operasi sistem. Arsitektur ini didasarkan pada teknologi Amazon EMR Serverless Fine Grained Access Control, juga dikenal sebagai Membrane. Untuk informasi selengkapnya, lihat Membrane — Kontrol akses data yang aman dan berkinerja di Apache Spark dengan adanya kode imperatif.

Komponen lingkungan komputasi dibagi menjadi ruang pengguna dan ruang sistem yang terpisah. Ruang pengguna mengeksekusi PySpark kode dalam template PySpark analisis. AWS Clean Rooms menggunakan ruang sistem untuk memungkinkan pekerjaan berjalan termasuk menggunakan peran layanan yang disediakan oleh pelanggan untuk membaca data untuk menjalankan pekerjaan dan menerapkan daftar izin kolom. Sebagai hasil dari arsitektur ini, PySpark kode pelanggan yang mempengaruhi ruang sistem, yang dapat mencakup sejumlah kecil Spark SQL dan PySpark DataFrames APIs, diblokir.

PySpark keterbatasan dalam AWS Clean Rooms

Ketika pelanggan mengirimkan template PySpark analisis yang disetujui, AWS Clean Rooms menjalankannya di lingkungan komputasi aman sendiri yang tidak dapat diakses oleh pelanggan. Lingkungan komputasi mengimplementasikan arsitektur komputasi dengan ruang pengguna dan ruang sistem untuk melestarikan lingkungan komputasi yang aman. Untuk informasi selengkapnya, lihat Keamanan untuk templat PySpark analisis.

Pertimbangkan batasan berikut sebelum Anda menggunakannya PySpark AWS Clean Rooms.

Batasan

Hanya DataFrame output yang didukung
Sesi Spark Tunggal per eksekusi pekerjaan

Fitur yang tidak didukung

Manajemen data
- Format tabel gunung es
- LakeFormation tabel terkelola
- Kumpulan data terdistribusi yang tangguh (RDD)
- Streaming percikan
- Kontrol akses untuk kolom bersarang
Fungsi dan ekstensi khusus
- Fungsi tabel yang ditentukan pengguna () UDTFs
- Sarang UDFs
- Kelas kustom dalam fungsi yang ditentukan pengguna
- Sumber data kustom
- File JAR tambahan untuk:
  - Ekstensi percikan
  - Konektor
  - Konfigurasi metastore
Pemantauan dan analisis
- Penebangan percikan
- Spark UI
- ANALYZE TABLEperintah

penting

Keterbatasan ini ada untuk menjaga isolasi keamanan antara ruang pengguna dan sistem.

Semua batasan berlaku terlepas dari konfigurasi kolaborasi.

Pembaruan di masa mendatang dapat menambahkan dukungan untuk fitur tambahan berdasarkan evaluasi keamanan.

Praktik terbaik

Kami merekomendasikan praktik terbaik berikut saat membuat templat PySpark analisis.

Rancang templat analisis Anda PySpark keterbatasan dalam AWS Clean Rooms dengan mempertimbangkan.
Uji kode Anda di lingkungan pengembangan terlebih dahulu.
Gunakan DataFrame operasi yang didukung secara eksklusif.
Rencanakan struktur output Anda untuk bekerja dengan DataFrame keterbatasan.

Kami merekomendasikan praktik terbaik berikut untuk mengelola artefak

Simpan semua artefak template PySpark analisis dalam bucket atau awalan S3 khusus.
Gunakan penamaan versi yang jelas untuk versi artefak yang berbeda.
Buat templat analisis baru saat pembaruan artefak diperlukan.
Pertahankan inventaris templat mana yang menggunakan versi artefak mana.

Untuk informasi selengkapnya tentang cara menulis kode Spark, lihat berikut ini:

Contoh Apache Spark
Tulis aplikasi Spark di Panduan Rilis EMR Amazon
Tutorial: Menulis skrip AWS Glue untuk Spark di AWS Glue Panduan Pengguna

Topik berikut menjelaskan cara membuat skrip dan pustaka pengguna Python sebelum membuat dan meninjau template analisis.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Meninjau template analisis SQL

Membuat skrip pengguna