偵測和處理敏感資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵測和處理敏感資料

Detect PII 轉換可識別資料來源中的個人識別資訊 (PII)。您可以選擇要識別的 PII 實體、您希望如何掃描資料,以及如何處理透過 Detect Word 轉換識別的 PII PII實體。

Detect PII 轉換可讓您偵測、遮罩或移除您定義或預先定義的實體 AWS。這樣,您就能夠提高合規性並減少責任。例如,您可能想要確保資料中沒有可讀取的個人身分識別資訊,並想要使用固定字串 (例如 xxx-xx-xxxx)、電話號碼或地址來遮罩社會安全號碼。

使用外部的敏感資料 AWS Glue Studio,請參閱 在 AWS Glue Studio 外部使用敏感資料偵測

選擇掃描資料的方式

當您掃描資料集以取得個人身分識別資訊 (PII) 等敏感資料時,您可以選擇偵測每一列中的 PII 或偵測包含 PII 資料的欄。

螢幕擷取畫面顯示選取偵測資料來源中包含 PII 的欄位時, Detect PII 轉換中的選項。

當您在每個儲存格中選擇 Detect PII 時,您可以選擇掃描資料來源中的所有資料列。這是全面的掃描,以確保識別 PII 實體。

當您選擇偵測包含 PII 的欄位時,您選擇掃描 PII 實體的資料列範例。這是保持低成本和資源的方式,同時識別找到 PII 實體的欄位。

當您選擇偵測包含 PII 的欄位時,您可以透過抽樣一部分資料列來降低成本並改善效能。選擇此選項可讓您指定其他選項:

  • Sample portion (取樣部分):這可讓您指定要取樣的列百分比。例如,如果您輸入「50」,表示您想要 PII 實體掃描資料列的 50%。

  • 偵測閾值:這可讓您指定包含 PII 實體的資料列百分比,以便將整個資料欄識別為具有 PII 實體。例如,如果您輸入「10」,則表示掃描資料列中的 PII 實體 US Phone 數目必須為 10% 或更高,以便將 欄位識別為具有 PII 實體 US Phone。如果包含 PII 實體的資料列百分比低於 10%,則此欄位不會標記為具有 PII 實體 US Phone。

選擇要偵測的 PII 實體

如果您在每個儲存格中選擇 Detect PII,您可以選擇三個選項之一:

  • 所有可用的 PII 模式 - 這包括 AWS 實體。

  • 選取類別 - 當您選取類別時,PII 模式會自動將模式包含在您選取的類別中。

  • 選取特定模式 - 僅會偵測您選取的模式。

如需受管敏感資料類型的完整清單,請參閱 Managed data types

從所有可用的 PII 模式中選擇

如果您選擇所有可用的 PII 模式,請選取預先定義的實體 AWS。您可以選取一個、多個或所有實體。

螢幕擷取畫面會顯示預先定義 AWS 實體清單中的選項。

選取類別

如果您選擇選取類別作為要偵測的 PII 模式,您可以從下拉式功能表中的選項中選取。請注意,部分實體可隸屬於多個類別。例如,人員名稱是屬於 UniversalHIPAA 類別的實體。

  • 通用 (範例:電子郵件、信用卡)

  • HIPAA (範例:美國駕照、醫療保健通用程序編碼系統 (HCPCS) 程式碼)

  • 網路 (範例:IP 地址、MAC 地址)

  • 阿根廷

  • 澳洲

  • 奧地利

  • 比利時

  • 波士尼亞

  • 保加利亞

  • 加拿大

  • 智利

  • 哥倫比亞

  • 克羅埃西亞

  • 賽普勒斯

  • 捷克

  • 丹麥

  • 愛沙尼亞

  • 芬蘭

  • 法國

  • 德國

  • 希臘

  • 匈牙利

  • 愛爾蘭

  • 韓國

  • 日本

  • 墨西哥

  • 荷蘭

  • 紐西蘭

  • 挪威

  • 葡萄牙

  • 羅馬尼亞

  • 新加坡

  • 斯洛伐克

  • 斯洛維尼亞

  • 西班牙

  • 瑞典

  • 瑞士

  • 土耳其

  • 烏克蘭

  • 美國

  • 英國

  • 委內瑞拉

選取特定模式

如果您選擇選取特定模式作為要偵測的 PII 模式,您可以從您已建立的模式清單中搜尋或瀏覽,或建立新的偵測實體模式。

以下步驟說明了如何建立新的自訂模式來偵測敏感資料。您將透過輸入自訂模式的名稱來建立自訂模式、新增規則運算式,或者定義內容文字。

  1. 若要建立新模式,請按一下 Create new (建立新模式) 按鈕。

    螢幕擷取畫面會顯示 Select patterns (選取模式) 區段。
  2. 在 Create detection entity (建立偵測實體) 頁面中,請輸入實體名稱和常規表達式。規則表達式 (Regex) 是 AWS Glue 將使用 來比對實體。

  3. 按一下 Validate (驗證)。若驗證成功,您將會看到一則確認訊息,說明該字串為有效的常規表達式。若驗證未成功,您將會看到一則訊息,說明該字串不符合正確的格式和可接受的字元常值、運算子或建構。

  4. 除了常規表達式之外,您可以選擇新增內容文字。內容文字可能會提高相符的可能性。若欄位名稱並非實體的描述,這些功能便十分實用。例如,社會安全號碼可能命名為 'SSN' 或 'SS'。新增這些內容文字有助於配對實體。

  5. 按一下 Create (建立) 以建立偵測實體。任何建立的實體都可在 中看到 AWS Glue Studio 主控台。按一下左側導覽選單中的 Detection entities (偵測實體)。

    您可以從 Detection entities (偵測實體) 頁面中編輯、刪除或建立偵測實體。您也可以使用搜尋欄位來搜尋模式。

指定偵測敏感度等級

您可以設定使用偵測敏感資料時的敏感度等級。

  • :(預設) 針對需要更高敏感度等級的使用案例偵測更多實體。全部 AWS Glue 2023 年 11 月之後建立的任務會自動選擇加入此設定。

  • :偵測較少的實體並減少誤報。

螢幕擷取畫面顯示全域偵測敏感度選項。其中一個為低選項,可提供更佳的精確度,但較為嚴格,可能會導致較低數量的整體偵測結果。第二個選項是高敏感度設定,用於更廣泛的偵測,如果您需要更高的 PII 偵測,則更適合使用。

選擇如何處理已識別的 PII 資料

如果您選擇偵測整個資料來源中的 PII,則可以選取要套用的全域動作:

  • 具有偵測結果的豐富資料:如果您在每個儲存格中選擇 Detect PII,您可以將偵測到的實體存放到新的資料欄中。

  • 修正偵測到的文字:您可以將偵測到的 PII 值取代為您在選用的取代文字輸入欄位中指定的字串。如果未指定字串,偵測到的 PII 實體會取代為 '*******'。

  • 部分修改偵測到的文字:您可以將偵測到的部分 PII 值取代為您選擇的字串。其中提供兩個可能的選項:保持結尾未遮罩,或透過明確的 regex 模式進行遮罩。此功能無法在 中使用 AWS Glue 2.0.

  • 套用密碼編譯雜湊:您可以將偵測到的 PII 值傳遞至 SHA-256 密碼編譯雜湊函數,並將該值取代為函數的輸出。

螢幕擷取畫面顯示選取資料來源中的所有資料列以偵測 PII 時, Detect PII 轉換中的選項。

之間的差異 AWS Glue 2.0 和 3.0+ 版

AWS Glue 2.0 任務將傳回新的 DataFrame ,其中包含補充欄中每個資料欄偵測到的 PII 資訊。任何編輯或雜湊工作都可在 中看到 AWS Glue 視覺化索引標籤中的指令碼。

AWS Glue 3.0 和 4.0 任務將傳回具有此相同補充資料欄的新 DataFrame 。“actionUsed” 的新索引鍵存在,可以是 DETECTPARTIAL_REDACTREDACT或 之一SHA256_HASH。如果選取遮罩動作, DataFrame 會傳回已遮罩敏感資料的資料。

新增微調動作覆寫

您可以將其他偵測和動作設定新增至微調動作覆寫資料表。這可讓您:

  • 包含或從偵測中排除特定資料欄:資料來源上的推論結構描述將會在資料表中填入可用的資料欄。

  • 指定深入微調的特定設定,而非使用全域動作:例如,您可以為不同的實體類型指定不同的遮蔽文字設定。

  • 指定全域動作以外的不同動作:如果要在不同的敏感資料類型上套用不同的動作,則可在此處進行。請注意,同一欄無法使用兩個不同的 edit-in-place 動作 (編輯和雜湊),但一律可以使用偵測。

螢幕擷取畫面顯示微調動作覆寫。您可以新增、編輯、刪除或編輯 JSON 任務的任何動作覆寫。