建議 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建議

如果您使用非敏感性資料 (例如非個人識別資訊 (PII) 資料,建議您在AWS 雲端.

但是,您可能需要額外的層,具體取決於數據的複雜性和用例。例如,如果您使用敏感資料 (例如 PII 資料),建議您使用其他 Amazon Simple Storage Service (Amazon S3) 貯體做為 landing zone,然後在資料移入原始資料層之前對其進行遮罩。如需更多相關資訊,請參閱本指南的處理敏感資料章節。

每個資料層都必須有個別的 S3 儲存貯體;下表說明我們建議的資料層:

資料層名稱 Description (描述) 生命週期策略範例
原料

包含未處理的原始資料,並且是資料擷取至資料湖的層。

如果可能,您應該保留原始檔案格式,並在 S3 儲存貯體中開啟版本控制。

一年後,將檔案移至 Amazon S3 不常存取 (IA) 儲存類別。在 Amazon S3 IA 兩年後,將它們存檔到 Amazon S3 冰川
階段

包含針對消費進行最佳化的中繼處理資料 (例如 CSV 到 Apache Parquet 的轉換原始檔案或資料轉換)。

AWS Glue工作會從原始圖層讀取檔案並驗證資料。然後,AWS Glue工作會將資料儲存在 Apache Parquet 格式的檔案中,而中繼資料會儲存在AWS Glue資料目錄的表格中。

您可以在定義的時間段後或根據您組織的需求刪除資料。

某些資料衍生產品 (例如,原始 JSON 格式的 Apache Avro 轉換) 可在較短的時間後 (例如 90 天後) 從資料湖中移除。

分析 以消耗就緒格式包含特定使用案例的彙總資料 (例如,Apache 實木複合地板)。 資料可以移至 Amazon S3 IA,然後在定義的時間段後或根據組織的要求刪除。
注意

您必須根據組織需求、法規需求、查詢模式和成本考量,評估所有建議的生命週期原則策略。