偵測和處理敏感資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

偵測和處理敏感資料

Detect PII 轉換可識別資料來源中的個人身分識別資訊 (PII)。您可以選擇要識別的 PII 實體、掃描資料的方式,以及如何處理由 Detect PII 轉換識別的 PII 實體。

Detect PII 轉換提供偵測、遮罩或移除實體的功能,這些實體為您定義或由 AWS預先定義的實體。這樣,您就能夠提高合規性並減少責任。例如,您可能想要確保您的資料中沒有任何可讀取的個人身分資訊,並希望使用固定字串 (例如 xxx-xx-xxxx)、電話號碼或地址遮罩社會安全號碼。

若要處理 AWS Glue Studio 以外的敏感資料,請參閱 在 AWS Glue Studio 外部使用敏感數據檢測

選擇掃描資料的方式

當您掃描資料集尋找敏感資料 (例如,個人身分識別資訊 (PII)) 時,可以選擇偵測每個資料列中的 PII,或偵測包含 PII 資料的資料欄。

選取以偵測資料來源中包含 PII 的欄位時,螢幕擷取畫面會顯示 Detect PII 轉換中的選項。

當您選擇 Detect PII in each cell (偵測每個儲存格中的 PII) 時,就表示掃描資料來源中的所有資料列。這是一項完整的掃描,可確保識別 PII 實體。

當您選擇 Detect fields containing PII (偵測包含 PII 的欄位) 時,則表示掃描資料列範例以取得 PII 實體。這是一種降低成本和資源的方法,同時可識別找到 PII 實體的欄位。

當您選擇偵測包含 PII 的欄位時,可以透過取樣部分資料列降低成本並改善效能。選擇此選項可讓您指定其他選項:

  • Sample portion (取樣部分):這可讓您指定要取樣的列百分比。例如,如果您輸入 '50',則表示您要為 PII 實體指定 50% 的掃描列。

  • Detection threshold (偵測閾值):這可讓您指定包含 PII 實體的列百分比,以便將整個資料行識別為具有 PII 實體。例如,如果您輸入 '10',則指定掃描資料列中 PII 實體 (美國電話) 的數字必須占 10% 或更大,才能將欄位識別為具有 PII 實體 (美國電話)。如果包含 PII 實體的資料列百分比小於 10%,則該欄位將不會識別為具有 PII 實體 (美國電話)。

選擇要偵測的 PII 實體

若您選擇 Detect PII in each cell (偵測各儲存格中的 PII),則您可從以下三個選項中選擇一個:

  • 所有可用的 PII 模式-這包括 AWS 實體。

  • 選取類別 – 在您選取類別時,PII 模式將自動包含您選取類別中的模式。

  • 選取特定模式 - 僅會偵測您選取的模式。

如需受管敏感資料類型的完整清單,請參閱 Managed data types

從所有可用的 PII 模式中選擇

如果您選擇「所有可用的 PII 樣式」,請選取預先定義的圖元。 AWS您可以選取一個、多個或所有實體。

螢幕擷取畫面會顯示預先定義 AWS 圖元清單中的選項。

選取類別

若您選擇 Select categories (選取類別) 作為要偵測的 PII 模式,則您可從下拉式選單中的選項中選取。請注意,部分實體可隸屬於多個類別。例如:Person's name (人員姓名) 是一個同時隸屬於 Universal (通用) 和 HIPAA 類別的實體。

  • 通用 (範例:電子郵件、信用卡)

  • HIPAA (例如:美國駕駛執照、醫療通用程序編碼系統 (HCPCS) 代碼)

  • 聯網 (範例:IP 地址、MAC 地址)

  • 阿根廷

  • 澳洲

  • 奧地利

  • 比利時

  • 波士尼亞

  • 保加利亞

  • 加拿大

  • 智利

  • 哥倫比亞

  • 克羅埃西亞

  • 賽普勒斯

  • 捷克

  • 丹麥

  • 愛沙尼亞

  • 芬蘭

  • 法國

  • 德國

  • 希臘

  • 匈牙利

  • 愛爾蘭

  • 韓國

  • 日本

  • 墨西哥

  • 荷蘭

  • 紐西蘭

  • 挪威

  • 葡萄牙

  • 羅馬尼亞

  • 新加坡

  • 斯洛伐克

  • 斯洛維尼亞

  • 西班牙

  • 瑞典

  • 瑞士

  • 土耳其

  • 烏克蘭

  • 美國

  • 英國

  • 委內瑞拉

選取特定模式

若您選擇 Select specific patterns (選取特定模式) 作為要偵測的 PII 模式,您可從已建立的模式清單中搜尋或瀏覽,或者建立新的偵測實體模式。

以下步驟說明了如何建立新的自訂模式來偵測敏感資料。您將透過輸入自訂模式的名稱來建立自訂模式、新增規則運算式,或者定義內容文字。

  1. 若要建立新模式,請按一下 Create new (建立新模式) 按鈕。

    螢幕擷取畫面會顯示 Select patterns (選取模式) 區段。
  2. 在 Create detection entity (建立偵測實體) 頁面中,請輸入實體名稱和常規表達式。常規表達式 (Regex) 是 AWS Glue 將用來配對實體的方式。

  3. 按一下 Validate (驗證)。若驗證成功,您將會看到一則確認訊息,說明該字串為有效的常規表達式。若驗證未成功,您將會看到一則訊息,說明該字串不符合正確的格式和可接受的字元常值、運算子或建構。

  4. 除了常規表達式之外,您可以選擇新增內容文字。內容文字可能會提高相符的可能性。若欄位名稱並非實體的描述,這些功能便十分實用。例如,社會安全號碼可被命名為 "SSN" 或 "SS"。新增這些內容文字有助於配對實體。

  5. 按一下 Create (建立) 以建立偵測實體。任何已建立的實體皆在 AWS Glue Studio 主控台中可見。按一下左側導覽選單中的 Detection entities (偵測實體)。

    您可以從 Detection entities (偵測實體) 頁面中編輯、刪除或建立偵測實體。您也可以使用搜尋欄位來搜尋模式。

指定偵測敏感度等級

您可以設定使用偵測敏感資料時的敏感度等級。

  • :(預設) 針對需要更高敏感度等級的使用案例偵測更多實體。所有在 2023 年 11 月之後建立的 AWS Glue 任務都會自動選擇加入此設定。

  • :偵測較少的實體並減少誤報。

螢幕擷取畫面顯示全域偵測敏感度選項。其中一個為低選項,可提供更佳的精確度,但較為嚴格,可能會導致較低數量的整體偵測結果。第二個選項為高敏感度設定,可提供更廣泛的偵測,如果您需要較高數量的 PII 偵測結果,更為適合使用。

選擇如何處理已識別的 PII 資料

如果您選擇在整個資料來源中偵測 PII,則可選取要套用的全域動作:

  • Enrich data with detection results (利用偵測結果豐富資料):如果您在每個儲存格中選擇「偵測 PII」,則可以將偵測到的實體存放到新的資料行中。

  • Redact detected text (將偵測到的文字設為密文):您可以使用在選擇性的取代文字輸入欄位中指定的字串來取代偵測到的 PII 值。如果未指定任何字串,則偵測到的 PII 實體會以 '*******' 取代。

  • 部分遮蔽偵測到的文字:您可以使用選擇的字串取代部分偵測到的 PII 值。其中提供兩個可能的選項:保持結尾未遮罩,或透過明確的 regex 模式進行遮罩。此功能尚無法在 AWS Glue 2.0 中使用。

  • Apply cryptographic hash (套用加密雜湊):您可以將偵測到的 PII 值傳遞給 SHA-256 密碼編譯雜湊函數,並以函數的輸出取代該值。

當選取資料來源中的所有資料列以偵測 PII 時,螢幕擷取畫面會顯示 Detect PII 轉換中的選項。

AWS Glue 2.0 和 3.0 以上版本之間的差異

AWS Glue2.0 個工作將在補充欄中傳回一個新的工作,其中 DataFrame 包含偵測到的 PII 資訊。任何遮蔽或雜湊工作皆會顯示於視覺化索引標籤中的 AWS Glue 指令碼內。

AWS Glue3.0 和 4.0 工作將返回一個 DataFrame 具有相同補充列的新作業。"actionUsed" 的新金鑰隨即顯示,可能為 DETECTREDACTPARTIAL_REDACTSHA256_HASH 其中一個。如果選取遮罩動作, DataFrame 將會傳回遮罩敏感資料的資料。

新增微調動作覆寫

您可以將其他偵測和動作設定新增至微調動作覆寫資料表。這可讓您:

  • 包含或從偵測中排除特定資料欄:資料來源上的推論結構描述將會在資料表中填入可用的資料欄。

  • 指定深入微調的特定設定,而非使用全域動作:例如,您可以為不同的實體類型指定不同的遮蔽文字設定。

  • 指定全域動作以外的不同動作:如果要在不同的敏感資料類型上套用不同的動作,則可在此處進行。請注意,不能在同一列上使用兩個不同的 edit-in-place 操作(密文和哈希),但可以始終使用檢測。

螢幕擷取畫面顯示微調動作覆寫。您可以 JSON 格式新增、編輯、刪除或編輯任務的任何動作覆寫。