Pilih preferensi cookie Anda

Kami menggunakan cookie penting serta alat serupa yang diperlukan untuk menyediakan situs dan layanan. Kami menggunakan cookie performa untuk mengumpulkan statistik anonim sehingga kami dapat memahami cara pelanggan menggunakan situs dan melakukan perbaikan. Cookie penting tidak dapat dinonaktifkan, tetapi Anda dapat mengklik “Kustom” atau “Tolak” untuk menolak cookie performa.

Jika Anda setuju, AWS dan pihak ketiga yang disetujui juga akan menggunakan cookie untuk menyediakan fitur situs yang berguna, mengingat preferensi Anda, dan menampilkan konten yang relevan, termasuk iklan yang relevan. Untuk menerima atau menolak semua cookie yang tidak penting, klik “Terima” atau “Tolak”. Untuk membuat pilihan yang lebih detail, klik “Kustomisasi”.

PySpark template analisis

Mode fokus
PySpark template analisis - AWS Clean Rooms

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

PySpark template analisis memerlukan skrip pengguna Python dan lingkungan virtual opsional untuk menggunakan pustaka kustom dan sumber terbuka. File-file ini disebut artefak.

Sebelum Anda membuat template analisis, pertama-tama Anda membuat artefak dan kemudian menyimpan artefak dalam ember Amazon S3. AWS Clean Rooms menggunakan artefak ini saat menjalankan pekerjaan analisis. AWS Clean Rooms hanya mengakses artefak saat menjalankan pekerjaan.

Sebelum menjalankan kode apa pun pada templat PySpark analisis, AWS Clean Rooms validasi artefak dengan:

  • Memeriksa versi objek S3 tertentu yang digunakan saat membuat template

  • Memverifikasi hash SHA-256 dari artefak

  • Gagal pekerjaan apa pun di mana artefak telah dimodifikasi atau dihapus

catatan

Ukuran maksimum semua artefak gabungan untuk templat PySpark analisis yang diberikan AWS Clean Rooms adalah 1 GB.

Keamanan untuk templat PySpark analisis

Untuk mempertahankan lingkungan komputasi yang aman, AWS Clean Rooms gunakan arsitektur komputasi dua tingkat untuk mengisolasi kode pengguna dari operasi sistem. Arsitektur ini didasarkan pada teknologi Amazon EMR Serverless Fine Grained Access Control, juga dikenal sebagai Membrane. Untuk informasi selengkapnya, lihat Membrane — Kontrol akses data yang aman dan berkinerja di Apache Spark dengan adanya kode imperatif.

Komponen lingkungan komputasi dibagi menjadi ruang pengguna dan ruang sistem yang terpisah. Ruang pengguna mengeksekusi PySpark kode dalam template PySpark analisis. AWS Clean Rooms menggunakan ruang sistem untuk memungkinkan pekerjaan berjalan termasuk menggunakan peran layanan yang disediakan oleh pelanggan untuk membaca data untuk menjalankan pekerjaan dan menerapkan daftar izin kolom. Sebagai hasil dari arsitektur ini, PySpark kode pelanggan yang mempengaruhi ruang sistem, yang dapat mencakup sejumlah kecil Spark SQL dan PySpark DataFrames APIs, diblokir.

PySpark keterbatasan dalam AWS Clean Rooms

Ketika pelanggan mengirimkan template PySpark analisis yang disetujui, AWS Clean Rooms menjalankannya di lingkungan komputasi aman sendiri yang tidak dapat diakses oleh pelanggan. Lingkungan komputasi mengimplementasikan arsitektur komputasi dengan ruang pengguna dan ruang sistem untuk melestarikan lingkungan komputasi yang aman. Untuk informasi selengkapnya, lihat Keamanan untuk templat PySpark analisis.

Pertimbangkan batasan berikut sebelum Anda menggunakannya PySpark AWS Clean Rooms.

Batasan

  • Hanya DataFrame output yang didukung

  • Sesi Spark Tunggal per eksekusi pekerjaan

Fitur yang tidak didukung

  • Manajemen data

    • Format tabel gunung es

    • LakeFormation tabel terkelola

    • Kumpulan data terdistribusi tangguh (RDD)

    • Streaming percikan

    • Kontrol akses untuk kolom bersarang

  • Fungsi dan ekstensi khusus

    • Fungsi tabel yang ditentukan pengguna () UDTFs

    • Sarang UDFs

    • Kelas khusus dalam fungsi yang ditentukan pengguna

    • Sumber data kustom

    • File JAR tambahan untuk:

      • Ekstensi percikan

      • Konektor

      • Konfigurasi metastore

  • Pemantauan dan analisis

    • Penebangan percikan

    • Spark UI

    • ANALYZE TABLEperintah

penting

Keterbatasan ini ada untuk menjaga isolasi keamanan antara ruang pengguna dan sistem.

Semua batasan berlaku terlepas dari konfigurasi kolaborasi.

Pembaruan di masa mendatang dapat menambahkan dukungan untuk fitur tambahan berdasarkan evaluasi keamanan.

Praktik terbaik

Kami merekomendasikan praktik terbaik berikut saat membuat templat PySpark analisis.

  • Rancang templat analisis Anda PySpark keterbatasan dalam AWS Clean Rooms dengan mempertimbangkan.

  • Uji kode Anda di lingkungan pengembangan terlebih dahulu.

  • Gunakan DataFrame operasi yang didukung secara eksklusif.

  • Rencanakan struktur output Anda untuk bekerja dengan DataFrame keterbatasan.

Kami merekomendasikan praktik terbaik berikut untuk mengelola artefak

  • Simpan semua artefak template PySpark analisis dalam bucket atau awalan S3 khusus.

  • Gunakan penamaan versi yang jelas untuk versi artefak yang berbeda.

  • Buat templat analisis baru saat pembaruan artefak diperlukan.

  • Pertahankan inventaris templat mana yang menggunakan versi artefak mana.

Untuk informasi selengkapnya tentang cara menulis kode Spark, lihat berikut ini:

Topik berikut menjelaskan cara membuat skrip dan pustaka pengguna Python sebelum membuat dan meninjau template analisis.

Di halaman ini

PrivasiSyarat situsPreferensi cookie
© 2025, Amazon Web Services, Inc. atau afiliasinya. Semua hak dilindungi undang-undang.