Mendeteksi dan memproses data sensitif - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mendeteksi dan memproses data sensitif

Transformasi PII Detect mengidentifikasi Informasi Identifikasi Pribadi (PII) di sumber data Anda. Anda memilih entitas PII untuk diidentifikasi, bagaimana Anda ingin data dipindai, dan apa yang harus dilakukan dengan entitas PII yang telah diidentifikasi oleh transformasi Detect PII.

Transformasi Detect PII menyediakan kemampuan untuk mendeteksi, menutupi, atau menghapus entitas yang Anda tentukan, atau yang telah ditentukan sebelumnya oleh. AWS Ini memungkinkan Anda untuk meningkatkan kepatuhan dan mengurangi tanggung jawab. Misalnya, Anda mungkin ingin memastikan bahwa tidak ada informasi identitas pribadi dalam data Anda yang dapat dibaca dan ingin menutupi nomor jaminan sosial dengan string tetap (seperti xxx-xx-xxxx), nomor telepon, atau alamat.

Untuk bekerja dengan data sensitif di luarAWS Glue Studio, lihat Menggunakan Deteksi Data Sensitif di luar AWS Glue Studio

Memilih bagaimana Anda ingin data dipindai

Saat Anda memindai kumpulan data Anda untuk data sensitif seperti informasi identitas pribadi (PII), Anda dapat memilih untuk mendeteksi PII di setiap baris atau mendeteksi kolom yang berisi data PII.

Tangkapan layar menunjukkan opsi dalam transformasi Deteksi PII saat memilih untuk mendeteksi bidang yang berisi PII di sumber data.

Saat Anda memilih Deteksi PII di setiap sel, Anda memilih untuk memindai semua baris di sumber data. Ini adalah pemindaian komprehensif untuk memastikan bahwa entitas PII diidentifikasi.

Saat Anda memilih Mendeteksi bidang yang berisi PII, Anda memilih untuk memindai sampel baris untuk entitas PII. Ini adalah cara untuk menjaga biaya dan sumber daya tetap rendah sambil juga mengidentifikasi bidang tempat entitas PII ditemukan.

Ketika Anda memilih untuk mendeteksi bidang yang berisi PII, Anda dapat mengurangi biaya dan meningkatkan kinerja dengan mengambil sampel sebagian baris. Memilih opsi ini akan memungkinkan Anda untuk menentukan opsi tambahan:

  • Bagian sampel: Ini memungkinkan Anda untuk menentukan persentase baris untuk sampel. Misalnya, jika Anda memasukkan '50', Anda menentukan bahwa Anda menginginkan 50 persen baris yang dipindai untuk entitas PII.

  • Ambang deteksi: Ini memungkinkan Anda menentukan persentase baris yang berisi entitas PII agar seluruh kolom diidentifikasi memiliki entitas PII. Misalnya, jika Anda memasukkan '10', Anda menentukan bahwa jumlah entitas PII, Telepon AS, dalam baris yang dipindai harus 10 persen atau lebih besar agar bidang tersebut diidentifikasi memiliki entitas PII, Telepon AS. Jika persentase baris yang berisi entitas PII kurang dari 10 persen, bidang tersebut tidak akan diberi label memiliki entitas PII, Telepon AS, di dalamnya.

Memilih entitas PII untuk dideteksi

Jika Anda memilih Deteksi PII di setiap sel, Anda dapat memilih salah satu dari tiga opsi:

  • Semua pola PII yang tersedia - ini termasuk AWS entitas.

  • Pilih kategori - ketika Anda memilih kategori, pola PII akan secara otomatis menyertakan pola dalam kategori yang Anda pilih.

  • Pilih pola tertentu - Hanya pola yang Anda pilih yang akan terdeteksi.

Untuk daftar lengkap tipe data sensitif terkelola, lihat Tipe data terkelola.

Pilih dari semua pola PII yang tersedia

Jika Anda memilih Semua pola PII yang tersedia, pilih entitas yang telah ditentukan sebelumnya oleh. AWS Anda dapat memilih satu, lebih dari satu, atau semua entitas.

Screen shot menunjukkan opsi dalam daftar AWS entitas yang telah ditentukan sebelumnya.

Pilih kategori

Jika Anda memilih Pilih kategori sebagai pola PII untuk dideteksi, Anda dapat memilih dari opsi di menu tarik-turun. Perhatikan bahwa beberapa entitas dapat termasuk dalam lebih dari satu kategori. Misalnya, nama Orang adalah entitas yang termasuk dalam kategori Universal dan HIPAA.

  • Universal (contoh: Email, Kartu Kredit)

  • HIPAA (contoh: Surat Izin Mengemudi AS, Kode Sistem Pengkodean Prosedur Umum Kesehatan (HCPCS))

  • Jaringan (contoh: Alamat IP, Alamat MAC)

  • Argentina

  • Australia

  • Austria

  • Belgium

  • Bosnia

  • Bulgaria

  • Kanada

  • Chili

  • Kolombia

  • Croatia

  • Cyprus

  • Ceko

  • Denmark

  • Estonia

  • Finland

  • France

  • Germany

  • Greece

  • Hungary

  • Ireland

  • Korea

  • Jepang

  • Meksiko

  • Netherlands

  • Selandia Baru

  • Norwegia

  • Portugal

  • Romania

  • Singapura

  • Slovakia

  • Slovenia

  • Spain

  • Sweden

  • Swiss

  • Turki

  • Ukraina

  • Amerika Serikat

  • Britania Raya

  • Venezuela

Pilih pola tertentu

Jika Anda memilih Pilih pola tertentu sebagai pola PII yang akan dideteksi, Anda dapat mencari atau menelusuri dari daftar pola yang telah Anda buat, atau membuat pola entitas deteksi baru.

Langkah-langkah di bawah ini menjelaskan cara membuat pola kustom baru untuk mendeteksi data sensitif. Anda akan membuat pola kustom dengan memasukkan nama untuk pola kustom, menambahkan ekspresi reguler, dan secara opsional, menentukan kata-kata konteks.

  1. Untuk membuat pola baru, klik tombol Create new.

    Tangkapan layar menunjukkan bagian Pilih pola.
  2. Di halaman Create detection entity, masukkan nama entitas dan ekspresi reguler. Ekspresi reguler (Regex) adalah apa yang AWS Glue akan digunakan untuk mencocokkan entitas.

  3. Klik Validasi. Jika validasi berhasil, Anda akan melihat pesan konfirmasi yang menyatakan bahwa string adalah ekspresi reguler yang valid. Jika validasi tidak berhasil, Anda akan melihat pesan yang menyatakan bahwa string tidak sesuai dengan pemformatan yang tepat dan literal karakter, operator, atau konstruksi yang diterima.

  4. Anda dapat memilih untuk menambahkan kata-kata Konteks selain ekspresi reguler. Kata-kata konteks dapat meningkatkan kemungkinan kecocokan. Ini dapat berguna dalam kasus di mana nama bidang tidak deskriptif entitas. Misalnya, nomor jaminan sosial dapat diberi nama 'SSN' atau 'SS'. Menambahkan kata-kata konteks ini dapat membantu mencocokkan entitas.

  5. Klik Buat untuk membuat entitas deteksi. Entitas apa pun yang dibuat terlihat di AWS Glue Studio konsol. Klik entitas Deteksi di menu navigasi sebelah kiri.

    Anda dapat mengedit, menghapus, atau membuat entitas deteksi dari halaman entitas Deteksi. Anda juga dapat mencari pola menggunakan bidang pencarian.

Menentukan tingkat sensitivitas deteksi

Anda dapat mengatur tingkat sensitivitas saat menggunakan mendeteksi data sensitif.

  • Tinggi — (Default) Mendeteksi lebih banyak entitas untuk kasus penggunaan yang memerlukan tingkat sensitivitas yang lebih tinggi. Semua AWS Glue pekerjaan yang dibuat setelah November 2023 secara otomatis ikut serta dalam pengaturan ini.

  • Rendah - Mendeteksi lebih sedikit entitas dan mengurangi positif palsu.

Tangkapan layar menunjukkan opsi sensitivitas deteksi global. Ada opsi rendah, yaitu untuk presisi yang lebih baik, tetapi lebih ketat dan dapat menghasilkan deteksi keseluruhan yang lebih rendah. Opsi kedua adalah pengaturan sensitivitas tinggi, yang untuk deteksi yang lebih luas dan lebih cocok jika Anda memerlukan deteksi PII yang lebih tinggi.

Memilih apa yang harus dilakukan dengan data PII yang diidentifikasi

Jika Anda memilih untuk mendeteksi PII di seluruh sumber data, Anda dapat memilih tindakan global untuk diterapkan:

  • Perkaya data dengan hasil deteksi: Jika Anda memilih Deteksi PII di setiap sel, Anda dapat menyimpan entitas yang terdeteksi ke dalam kolom baru.

  • Menyunting teks yang terdeteksi: Anda dapat mengganti nilai PII yang terdeteksi dengan string yang Anda tentukan di bidang input teks Mengganti opsional. Jika tidak ada string yang ditentukan, entitas PII yang terdeteksi diganti dengan '*******'.

  • Menyunting sebagian teks yang terdeteksi: Anda dapat mengganti bagian dari nilai PII yang terdeteksi dengan string yang Anda pilih. Ada dua opsi yang mungkin: membiarkan ujungnya terbuka kedok atau menutupi dengan memberikan pola regex eksplisit. Fitur ini tidak tersedia di AWS Glue 2.0.

  • Terapkan hash kriptografi: Anda dapat meneruskan nilai PII yang terdeteksi ke fungsi hash kriptografi SHA-256 dan mengganti nilainya dengan output fungsi.

Tangkapan layar menunjukkan opsi dalam transformasi Deteksi PII saat memilih semua baris di sumber data untuk mendeteksi PII.

Perbedaan antara AWS Glue versi 2.0 dan 3.0+

AWS Glue2.0 pekerjaan akan mengembalikan yang baru DataFrame dengan informasi PII yang terdeteksi untuk setiap kolom di kolom tambahan. Setiap redaksi atau pekerjaan hash terlihat dalam AWS Glue skrip di tab visual.

AWS GluePekerjaan 3.0 dan 4.0 akan mengembalikan yang baru DataFrame dengan kolom tambahan yang sama ini. Sebuah kunci baru untuk “ActionUsed” hadir dan dapat menjadi salah satu dariDETECT,, REDACTPARTIAL_REDACT, atau. SHA256_HASH Jika tindakan masking dipilih, DataFrame akan mengembalikan data dengan data sensitif yang disamarkan.

Menambahkan penggantian aksi berbutir halus

Deteksi tambahan dan pengaturan tindakan dapat ditambahkan ke tabel penggantian tindakan berbutir halus. Ini memungkinkan Anda untuk:

  • Sertakan atau kecualikan kolom tertentu dari deteksi - Skema yang disimpulkan pada sumber data akan mengisi tabel dengan kolom yang tersedia.

  • Tentukan setelan spesifik yang lebih halus daripada menggunakan tindakan global — Misalnya, Anda dapat menentukan setelan teks redaksi yang berbeda untuk jenis entitas yang berbeda.

  • Tentukan tindakan yang berbeda dari tindakan global — Jika tindakan yang berbeda ingin diterapkan pada tipe data sensitif yang berbeda, itu dapat dilakukan di sini. Perhatikan bahwa dua edit-in-place tindakan berbeda (redaksi dan hashing) tidak dapat digunakan pada kolom yang sama, tetapi deteksi selalu dapat digunakan.

Tangkapan layar menunjukkan penggantian aksi berbutir halus. Anda dapat menambahkan, mengedit, menghapus, atau mengedit sebagai JSON tindakan apa pun menimpa pekerjaan tersebut.