Mendeteksi entitas PII - Amazon Comprehend

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mendeteksi entitas PII

Anda dapat menggunakan Amazon Comprehend untuk mendeteksi entitas PII dalam dokumen teks bahasa Inggris atau Spanyol. Entitas PII adalah jenis informasi identitas pribadi (PII) tertentu. Gunakan deteksi PII untuk menemukan entitas PII atau menyunting entitas PII dalam teks.

Temukan entitas PII

Untuk menemukan entitas PII dalam teks Anda, Anda dapat dengan cepat menganalisis satu dokumen menggunakan analisis waktu nyata. Anda juga dapat memulai pekerjaan batch asinkron pada kumpulan dokumen.

Anda dapat menggunakan konsol atau API untuk analisis real-time dari satu dokumen. Teks masukan Anda dapat mencakup hingga 100 kilobyte karakter yang dikodekan UTF-8.

Misalnya, Anda dapat mengirimkan teks input berikut untuk menemukan entitas PII:

Halo Paulo Santos. Pernyataan terbaru untuk akun kartu kredit Anda 1111-0000-1111-0000 dikirimkan ke 123 Any Street, Seattle, WA 98109.

Outputnya mencakup informasi bahwa “Paul Santos” memiliki tipeNAME, “1111-0000-1111-0000" memiliki tipe, dan “123 Any Street, SeattleCREDIT_DEBIT_NUMBER, WA 98109" memiliki tipe. ADDRESS

Amazon Comprehend mengembalikan daftar entitas PII yang terdeteksi, dengan informasi berikut untuk setiap entitas PII:

  • Skor yang memperkirakan probabilitas bahwa rentang teks yang terdeteksi adalah tipe entitas yang terdeteksi.

  • Tipe entitas PII.

  • Lokasi entitas PII dalam dokumen, ditentukan sebagai offset karakter untuk awal dan akhir entitas.

Misalnya, teks input yang disebutkan sebelumnya menghasilkan respons berikut:

{ "Entities": [ { "Score": 0.9999669790267944, "Type": "NAME", "BeginOffset": 6, "EndOffset": 18 }, { "Score": 0.8905550241470337, "Type": "CREDIT_DEBIT_NUMBER", "BeginOffset": 69, "EndOffset": 88 }, { "Score": 0.9999889731407166, "Type": "ADDRESS", "BeginOffset": 103, "EndOffset": 138 } ] }

Menyunting entitas PII

Untuk menyunting entitas PII dalam teks Anda, Anda dapat menggunakan konsol atau API untuk memulai pekerjaan batch asinkron. Amazon Comprehend mengembalikan salinan teks input dengan redaksi untuk setiap entitas PII.

Misalnya, Anda dapat mengirimkan teks masukan berikut untuk menyunting entitas PII:

Halo Paulo Santos. Pernyataan terbaru untuk akun kartu kredit Anda 1111-0000-1111-0000 dikirimkan ke 123 Any Street, Seattle, WA 98109.

File output mencakup teks berikut:

Halo ***** ******. Pernyataan terbaru untuk akun kartu kredit Anda ***************** telah dikirimkan ke *** *** ************ *******.

Jenis entitas universal PII

Beberapa jenis entitas PII bersifat universal (tidak spesifik untuk masing-masing negara), seperti alamat email dan nomor kartu kredit. Amazon Comprehend mendeteksi jenis entitas PII universal berikut:

MENEGUR

Alamat fisik, seperti “100 Main Street, Anytown, USA” atau “Suite #12, Building 123". Alamat dapat mencakup informasi seperti jalan, gedung, lokasi, kota, negara bagian, negara, kabupaten, kode pos, kantor polisi, dan lingkungan.

USIA

Usia individu, termasuk jumlah dan satuan waktu. Misalnya, dalam frasa “Saya berusia 40 tahun,” Amazon Comprehend mengakui “40 tahun” sebagai usia.

AWS_ACCESS_KEY

Pengidentifikasi unik yang terkait dengan kunci akses rahasia; Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani AWS permintaan terprogram secara kriptografis.

AWS_SECRET_KEY

Pengidentifikasi unik yang terkait dengan kunci akses. Anda menggunakan ID kunci akses dan kunci akses rahasia untuk menandatangani AWS permintaan terprogram secara kriptografis.

CREDIT_DEBIT_CVV

Kode verifikasi kartu tiga digit (CVV) yang ada di VISA, MasterCard, dan Discover kartu kredit dan debit. Untuk kartu kredit atau debit American Express, CVV adalah kode numerik empat digit.

CREDIT_DEBIT_EXPIRY

Tanggal kedaluwarsa untuk kartu kredit atau debit. Angka ini biasanya empat digit panjang dan sering diformat sebagai bulan/tahun atau MM/YY. Amazon Comprehend mengakui tanggal kedaluwarsa seperti 01/21, 01/2021, dan Jan 2021.

CREDIT_DEBIT_NUMBER

Nomor untuk kartu kredit atau debit. Angka-angka ini dapat bervariasi dari 13 hingga 16 digit panjangnya. Namun, Amazon Comprehend juga mengenali nomor kartu kredit atau debit ketika hanya empat digit terakhir yang ada.

DATE_TIME

Tanggal dapat mencakup tahun, bulan, hari, hari dalam seminggu, atau waktu dalam sehari. Misalnya, Amazon Comprehend mengakui “19 Januari 2020" atau “11 pagi” sebagai tanggal. Amazon Comprehend akan mengenali sebagian tanggal, rentang tanggal, dan interval tanggal. Ini juga akan mengenali dekade, seperti “1990-an”.

DRIVER_ID

Nomor yang ditetapkan untuk SIM, yang merupakan dokumen resmi yang memungkinkan seseorang untuk mengoperasikan satu atau lebih kendaraan bermotor di jalan umum. Nomor SIM terdiri dari karakter alfanumerik.

Email

Alamat email, seperti marymajor@email.com.

INTERNATIONAL_BANK_ACCOUNT_NUMBER

Nomor Rekening Bank Internasional memiliki format khusus di setiap negara. Lihat www.iban.com/structure.

IP_ALAMAT

Alamat IPv4, seperti 198.51.100.0.

LICENSE_PLATE

Plat nomor untuk kendaraan dikeluarkan oleh negara bagian atau negara tempat kendaraan terdaftar. Format untuk kendaraan penumpang biasanya lima hingga delapan digit, terdiri dari huruf besar dan angka. Formatnya bervariasi tergantung pada lokasi negara atau negara penerbit.

ALAMAT MAC_

Alamat kontrol akses media (MAC) adalah pengidentifikasi unik yang ditetapkan ke pengontrol antarmuka jaringan (NIC).

NAME

Nama seorang individu. Jenis entitas ini tidak termasuk gelar, seperti Dr., Mr., Mrs., atau Miss. Amazon Comprehend tidak menerapkan jenis entitas ini ke nama yang merupakan bagian dari organisasi atau alamat. Misalnya, Amazon Comprehend mengakui “John Doe Organization” sebagai sebuah organisasi, dan mengakui “Jane Doe Street” sebagai alamat.

KATA SANDI

String alfanumerik yang digunakan sebagai kata sandi, seperti “*very20special #pass *”.

TELEPON

Sebuah nomor telepon. Jenis entitas ini juga mencakup nomor faks dan pager.

PIN

Nomor identifikasi pribadi (PIN) empat digit yang dapat digunakan untuk mengakses rekening bank Anda.

KODE SWIFT_

Kode SWIFT adalah format standar Bank Identifier Code (BIC) yang digunakan untuk menentukan bank atau cabang tertentu. Bank menggunakan kode ini untuk transfer uang seperti transfer kawat internasional.

Kode SWIFT terdiri dari delapan atau 11 karakter. Kode 11 digit mengacu pada cabang tertentu, sedangkan kode delapan digit (atau kode 11 digit yang diakhiri dengan 'XXX') mengacu pada kepala atau kantor utama.

URL

Alamat web, seperti www.example.com.

NAMA PENGGUNA

Nama pengguna yang mengidentifikasi akun, seperti nama login, nama layar, nama panggilan, atau pegangan.

KENDARAAN_IDENTIFICATION_NUMBER

Nomor Identifikasi Kendaraan (VIN) secara unik mengidentifikasi kendaraan. Konten dan format VIN didefinisikan dalam spesifikasi ISO 3779. Setiap negara memiliki kode dan format khusus untuk VIN.

Tipe entitas PII khusus negara

Beberapa jenis entitas PII bersifat spesifik negara, seperti nomor paspor dan nomor ID yang dikeluarkan pemerintah lainnya. Amazon Comprehend mendeteksi jenis entitas PII khusus negara berikut:

CA_HEALTH_NUMBER

Nomor Layanan Kesehatan Kanada adalah pengenal unik 10 digit, yang diperlukan bagi individu untuk mengakses manfaat perawatan kesehatan.

CA_SOCIAL_INSURANCE_NUMBER

Nomor Asuransi Sosial Kanada (SIN) adalah pengidentifikasi unik sembilan digit, yang diperlukan bagi individu untuk mengakses program dan manfaat pemerintah.

SIN diformat sebagai tiga kelompok tiga digit, seperti 123-456-789. SIN dapat divalidasi melalui proses check-digit sederhana yang disebut algoritma Luhn.

IN_AADHAAR

Aadhaar India adalah nomor identifikasi unik 12 digit yang dikeluarkan oleh pemerintah India kepada penduduk India. Format Aadhaar memiliki spasi atau tanda hubung setelah digit keempat dan kedelapan.

IN_NREGA

Nomor Undang-Undang Jaminan Ketenagakerjaan Pedesaan Nasional India (NREGA) terdiri dari dua huruf diikuti oleh 14 angka.

IN_PERMANENT_ACCOUNT_NUMBER

Nomor Rekening Permanen India adalah nomor alfanumerik unik 10 digit yang dikeluarkan oleh Departemen Pajak Penghasilan.

DALAM_VOTER_NUMBER

ID Pemilih India terdiri dari tiga huruf diikuti oleh tujuh angka.

UK_NATIONAL_HEALTH_SERVICE_NUMBER

Nomor Layanan Kesehatan Nasional Inggris adalah nomor 10-17 digit, seperti 485 777 3456. Sistem saat ini memformat angka 10 digit dengan spasi setelah digit ketiga dan keenam. Digit terakhir adalah checksum pendeteksi kesalahan.

Format angka 17 digit memiliki spasi setelah digit ke-10 dan ke-13.

UK_NATIONAL_INSURANCE_NUMBER

Nomor Asuransi Nasional Inggris (NINO) memberi individu akses ke manfaat Asuransi Nasional (jaminan sosial). Ini juga digunakan untuk beberapa tujuan dalam sistem pajak Inggris.

Jumlahnya sembilan digit panjang dan dimulai dengan dua huruf, diikuti oleh enam angka dan satu huruf. NINO dapat diformat dengan spasi atau tanda hubung setelah dua huruf dan setelah digit kedua, keempat, dan keenam.

UK_UNIQUE_TAXPAYER_REFERENCE_NUMBER

Referensi Wajib Pajak Unik Inggris (UTR) adalah angka 10 digit yang mengidentifikasi wajib pajak atau bisnis.

BANK_ACCOUNT_NUMBER

Nomor rekening bank AS, yang biasanya panjangnya 10 hingga 12 digit. Amazon Comprehend juga mengenali nomor rekening bank ketika hanya empat digit terakhir yang ada.

BANK_ROUTING

Nomor perutean rekening bank AS. Ini biasanya sembilan digit panjang, tetapi Amazon Comprehend juga mengenali nomor routing ketika hanya empat digit terakhir yang ada.

PASSPORT_NUMBER

Nomor paspor AS. Nomor paspor berkisar dari enam hingga sembilan karakter alfanumerik.

US_INDIVIDUAL_TAX_IDENTIFICATION_NUMBER

Nomor Identifikasi Wajib Pajak Perorangan AS (ITIN) adalah angka sembilan digit yang dimulai dengan “9" dan berisi “7" atau “8" sebagai digit keempat. ITIN dapat diformat dengan spasi atau tanda hubung setelah digit ketiga dan seterusnya.

SSN

Nomor Jaminan Sosial AS (SSN) adalah nomor sembilan digit yang dikeluarkan untuk warga negara AS, penduduk tetap, dan penduduk yang bekerja sementara. Amazon Comprehend juga mengenali Nomor Jaminan Sosial ketika hanya empat digit terakhir yang ada.