在亞馬遜 Macie 中構建自定義數據標識符 - Amazon Macie

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在亞馬遜 Macie 中構建自定義數據標識符

一個自訂資料識別碼這是您定義用來偵測 Amazon 簡單儲存服務 (Amazon S3) 物件中敏感資料的一組準則。此條件包含規則運算式 (Regex),此表達式定義要比對的文字模式,以及可選擇的字元序列和精簡結果之鄰近性規則。

使用自訂資料識別碼,您可以定義偵測準則,以反映組織的特定案例、智慧財產或專屬資料,例如員工 ID、客戶帳戶號碼或內部資料分類。如果您設定敏感資料探索工作或者自動化敏感資料探索若要使用這些識別碼,您可以以補充受管資料識別碼亞馬遜麥西提供。

除了偵測準則之外,您還可以為自訂資料識別碼所產生的敏感資料發現項目定義自訂嚴重性設定。默認情況下,馬西分配中等自訂資料識別碼所產生之所有發現項目的嚴重性 — 嚴重性不會根據符合自訂資料識別碼偵測準則的文字出現次數而變更。透過定義自訂嚴重性設定,您可以根據符合條件的文字出現次數,指定要指派的嚴重性。

定義自訂資料識別碼的偵測標準

建立自訂資料識別碼時,您可以指定規則運算式 (正規則),定義要在 S3 物件中比對的文字模式。Macie 支持由提供的正則表達式模式語法的子集Perl 兼容的正則表達式(PCRE)庫。如需詳細資訊,請參閱正則表達式本節後面。

您也可以指定字元序列 (例如單字和片語),以及鄰近規則來精簡結果。

關鍵字

這些是特定的字符序列,必須在與正則表達式模式匹配的文本附近。鄰近需求會根據 S3 物件的儲存格式或檔案類型而有所不同:

  • 對於結構化的單欄式資料,如果文字符合 regex 模式,且關鍵字位於儲存文字的欄位或欄名稱中,或者文字的前面和位於相同欄位或儲存格值中關鍵字的最大符合距離之內,則 Macie 會包含結果。這是適用於微軟 Excel 工作簿,CSV 文件和 TSV 文件。

  • 對於結構化、以記錄為基礎的資料,如果文字符合 regex 模式,且文字位於關鍵字的最大比對距離內,Macie 會包含結果。關鍵字可以位於儲存文字之欄位或陣列路徑中的元素名稱中,也可以位於儲存文字的欄位或陣列中的相同值之前並成為相同值的一部分。這是阿帕奇阿夫羅對象容器,阿帕奇實木複合地板文件,JSON 文件和 JSON 行文件是如此。

  • 對於非結構化資料,如果文字符合 regex 模式,且文字的前面加上關鍵字的最大比對距離之內,Macie 就會包含一個結果。對於 Adobe 可移植文檔格式文件,微軟 Word 文檔,電子郵件消息和非二進制文本文件,CSV,JSON 行和 TSV 文件以外的非二進制文本文件是如此。這包括這些類型檔案中的任何結構化資料,例如資料表。

您可以指定多達 50 個關鍵字。每個關鍵字可包含 3—90 個 UTF-8 字元。關鍵字不區分大小寫。

最大匹配距離

這是一個基於字符的關鍵字鄰近規則。Macie 會使用此設定來判斷關鍵字是否在符合正則運算式模式的文字之前。此設定會定義在 complete 關鍵字結尾與符合 regex 模式的文字結尾之間可以存在的最大字元數。如果文字符合 regex 模式,發生在至少一個 complete 關鍵字之後,並且出現在關鍵字的指定距離內,Macie 會將其包含在結果中。否則,Macie 將其從結果中排除。

您可以指定 1-300 個字元的距離。預設距離為 50 個字元。為了獲得最佳結果,此距離應該大於正則表達式設計用於檢測的文本字符的最小字符數。如果只有部分文字在關鍵字的最大比對距離內,Macie 就不會將其包含在結果中。

忽略單字

這些是要從結果中排除的特定字符序列。如果文本與正則表達式模式匹配,但它包含忽略單詞,Macie 不會將其包含在結果中。

您最多可以指定 10 個忽略單字。每個忽略單字可包含 4—90 個 UTF-8 字元。忽略單詞需區分大小寫。

例如,許多公司都有員工 ID 的特定語法。一種這樣的語法可能是:一個大寫字母,表示員工是否是全職(F) 或兼職 (P) 員工,其次是連字號 (-),後面接著識別員工的八位數序列。例子是:F-12345678,對於全職員工,以及P-87654321,對於兼職員工。

如果您建立自訂資料識別碼來偵測使用此語法的員工 ID,您可以使用下列 regex:[A-Z]-\d{8}。要優化分析並避免誤報,您還可以配置自定義數據標識符以使用關鍵字僱員員工識別碼和 20 個字符的最大匹配距離。使用這些條件,結果僅在文本出現在關鍵字之後時才包含匹配 regex 的文本僱員或者員工識別碼並且所有文本都在其中一個關鍵字的 20 個字符內出現。

如需瞭解關鍵字如何協助您尋找敏感資料並避免誤判的示範,請觀看下列影片:

定義尋找自訂資料識別碼的嚴重性設定

建立自訂資料識別碼時,您也可以為識別碼產生的敏感資料發現項目定義自訂嚴重性設定。默認情況下,馬西分配中等自訂資料識別碼所產生之所有發現項目的嚴重性 — 如果 S3 物件包含至少一次符合自訂資料識別碼偵測準則的文字,Macie 會自動指派中等結果發現項目的嚴重性。

使用自訂嚴重性設定,您可以根據符合自訂資料識別碼偵測準則的文字出現次數,指定要指派的嚴重性。要做到這一點,你定義事件臨界值最多三個嚴重性等級:(最不嚴重),中等,以及(最嚴重)。一個發生次數閾是 S3 物件中必須存在的最小相符項目,才能產生具有指定嚴重性的發現項目。如果您指定一個以上的臨界值,臨界值必須按嚴重性遞增順序排列,

例如,下圖顯示自訂資料識別碼的嚴重性設定,該識別碼指定了三個發生次數臨界值,Macie 支援的每個嚴重性層級各一個。

該嚴重性的部分自訂資料識別碼具有三個發生次數臨界值的頁面:1 代表低嚴重性等級,50 代表中等嚴重性等級,100 代表高嚴重性等級。

下表指出自訂資料識別碼所產生之發現項目的嚴重性。

發生次數閾 嚴重性等級 結果
1 如果 S3 物件包含 1-49 次符合偵測準則的文字,則結果發現項目的嚴重性為
50 中型 如果 S3 物件包含 50—99 次符合偵測準則的文字,則結果發現項目的嚴重性為中等
100 如果 S3 物件包含 100 個或更多符合偵測準則的文字,則結果發現項目的嚴重性為

您也可以使用嚴重性設定來指定是否要建立完全發現項目。如果 S3 物件包含的出現次數少於最低出現次數閾值,Macie 不會建立發現項目。

建立自訂資料識別碼

請依照下列步驟使用 Amazon Macie 主控台建立自訂資料識別碼。要以程式設計方式建立自訂資料識別碼,請使用CreateCustomDataIdentifier亞馬遜梅西 API 的操作。

若要建立自訂資料識別碼
  1. 打開亞馬遜 Macie 控制台https://console.aws.amazon.com/macie/

  2. 在導覽窗格中的設定,選擇自訂資料識別碼

  3. 選擇 建立

  4. 對於名稱」中,輸入自訂資料識別碼的名稱。該名稱最多可包含 128 個字元。

    避免在名稱中包含任何敏感數據。您帳戶的其他使用者可能可以看到該名稱,具體取決於允許他們在 Macie 中執行的動作。

  5. (選擇性) 對於描述」中,輸入自訂資料識別碼的簡短描述。該描述最多可包含 512 個字元。

    避免在說明中包含任何敏感資料。您帳戶的其他使用者可能可以看到說明,具體取決於允許他們在 Macie 中執行的動作。

  6. 對於規則運算式,輸入規則運算式 (正規則),定義要比對的文字模式。正則表達式可以包含多達 512 個字符。若要瞭解支援的語法和條件約束,請參閱正則表達式本節後面。

  7. (選擇性) 對於關鍵字中,輸入最多 50 個字元序列 (以逗號分隔),以定義必須與 regex 模式相符之文字相鄰的特定文字。每個關鍵字可包含 3—90 個 UTF-8 字元。關鍵字不區分大小寫。

    只有當文字符合 regex 模式且文字位於其中一個關鍵字的最大匹配距離內時,Macie 才會在結果中包含一個出現位置,如前面的主題

  8. (選擇性) 對於忽略單字中,輸入最多 10 個字元序列 (以逗號分隔),以定義要從結果中排除的特定文字。每個忽略單字可包含 4—90 個 UTF-8 字元。忽略單詞需區分大小寫。

    如果文本與正則表達式模式匹配,但它包含以下忽略單詞之一,Macie 將從結果中排除出現的事件。

  9. (選擇性) 對於最大匹配距離」下方,輸入關鍵字結尾與符合 regex 模式的文字結尾之間可以存在的最大字元數。距離可以是 1 至 300 個字元。預設距離為 50 個字元。

    只有當文字符合 regex 模式且文字位於 complete 關鍵字的這個距離內時,Macie 才會在結果中包含一個出現項,如前面的主題

  10. 對於嚴重性,選擇您希望 Macie 如何為自訂資料識別碼產生的敏感資料發現項目指派嚴重性:

    • 若要自動指定中等所有發現項目的嚴重性,選擇針對任意數目的相符項目使用中等嚴重性 (預設)。使用此選項,Macie 會自動指定中等如果受影響的 S3 物件包含一或多個符合偵測準則的文字,則發現項目的嚴重性。

    • 若要根據您指定的發生次數臨界值指派嚴重性,請選擇使用自訂設定判斷嚴重性。然後使用發生次數閾嚴重性等級用於指定 S3 物件中必須存在的相符項目下限,才能產生具有所選嚴重性的發現項目。

      例如,若要指派針對報告符合偵測準則的文字出現 100 個或更多次的發現項目的嚴重性,請輸入100發生次數閾框,然後選擇嚴重性等級列表。

      您可以指定多達三個發生次數臨界值,Macie 支援的每個嚴重性層級各一個:(對於最不嚴重),中等,或(對於最嚴重的)。如果您指定多個臨界值,則臨界值必須按嚴重性遞增順序排列,。如果 S3 物件包含的出現次數少於最低指定閾值,Macie 不會建立發現項目。

  11. (選擇性) 對於标签,選擇新增標籤,然後輸入最多 50 個標籤,以指派給自訂資料識別碼。

    一個標籤是您定義並指定給某些類型的標籤AWS資源。每個標籤都包含必要的標籤鍵和一個可選的標籤值。標籤可協助您以不同的方式識別、分類及管理資源,例如依用途、擁有者、環境或其他條件。如需進一步了解,請參閱 標記亞馬遜麥西資源

  12. (選擇性) 對於評估」中,最多可輸入 1,000 個字元範例資料方塊中,然後選擇測試以測試偵測標準。Macie 會評估範例資料,並報告符合條件的文字出現次數。您可以根據需要重複此步驟多次,以優化和最佳化條件。

    注意

    我們強烈建議您在儲存自訂資料識別碼之前,先測試並調整偵測準則。由於敏感資料探索任務會使用自訂資料識別碼,因此您無法在儲存自訂資料識別碼之後編輯該資料識別碼。這有助於確保您擁有不可變的敏感資料發現歷史記錄,以及您執行的資料隱私權和保護稽核或調查的探索結果。

  13. 完成後,請選擇 Submit (提交)。

Macie 測試設置並驗證它是否可以編譯正則表達式。如果任何設置或正則表達式存在問題,則會發生錯誤並指出問題的性質。解決任何問題後,您可以儲存自訂資料識別碼。

自訂資料識別碼中的正則表達

Macie 支持由提供的正則表達式模式語法的子集Perl 兼容的正則表達式(PCRE)庫。在 PCRE 程式庫所提供的結構中,Macie 不支援下列樣式元素:

  • 反向引用

  • 擷取群組

  • 條件式模式

  • 內嵌程式碼

  • 全域模式旗標,例如/i,/m,以及/x

  • 遞歸模式

  • 正面和負面的後視和前瞻零寬度斷言,例如?=,?!,?<=,以及?<!

要為自定義數據標識符創建有效的正則表達式模式,請注意以下提示和建議:

  • 壁虎— 使用錨(^或者$) 僅當您預期圖樣出現在檔案的開頭或結尾,而不是行的開頭或結尾時。

  • 有界重复— 出於性能原因,Macie 限制了有界重複組的大小。例如,\d{100,1000}不會在馬西編譯。若要近似此功能,您可以使用開放式重複,例如\d{100,}

  • 不區分大小寫— 若要使圖案的某些部分不區分大小寫,您可以使用(?i)構造而不是/i標誌。

  • 性能— 無需手動優化前綴或替代。例如,變更/hello|hi|hey//h(?:ello|i|ey)/不會提高性能。

  • 萬用字元— 出於性能原因,Macie 限制了重複通配符的數量。例如,a*b*a*不會在馬西編譯。

為了防止格式錯誤或長時間執行的運算式,Macie 會根據範例文字集合自動測試 regex 模式。