本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建議
如果您使用非敏感性資料 (例如非個人識別資訊 (PII) 資料,建議您在AWS 雲端.
但是,您可能需要額外的層,具體取決於數據的複雜性和用例。例如,如果您使用敏感資料 (例如 PII 資料),建議您使用其他 Amazon Simple Storage Service (Amazon S3) 貯體做為 landing zone,然後在資料移入原始資料層之前對其進行遮罩。如需更多相關資訊,請參閱本指南的處理敏感資料章節。
每個資料層都必須有個別的 S3 儲存貯體;下表說明我們建議的資料層:
資料層名稱 | Description (描述) | 生命週期策略範例 |
原料 |
包含未處理的原始資料,並且是資料擷取至資料湖的層。 如果可能,您應該保留原始檔案格式,並在 S3 儲存貯體中開啟版本控制。 |
一年後,將檔案移至 Amazon S3 不常存取 (IA) 儲存類別。在 Amazon S3 IA 兩年後,將它們存檔到 Amazon S3 冰川。 |
階段 |
包含針對消費進行最佳化的中繼處理資料 (例如 CSV 到 Apache Parquet 的轉換原始檔案或資料轉換)。 AWS Glue工作會從原始圖層讀取檔案並驗證資料。然後,AWS Glue工作會將資料儲存在 Apache Parquet 格式的檔案中,而中繼資料會儲存在AWS Glue資料目錄的表格中。 |
您可以在定義的時間段後或根據您組織的需求刪除資料。 某些資料衍生產品 (例如,原始 JSON 格式的 Apache Avro 轉換) 可在較短的時間後 (例如 90 天後) 從資料湖中移除。 |
分析 | 以消耗就緒格式包含特定使用案例的彙總資料 (例如,Apache 實木複合地板)。 | 資料可以移至 Amazon S3 IA,然後在定義的時間段後或根據組織的要求刪除。 |
注意
您必須根據組織需求、法規需求、查詢模式和成本考量,評估所有建議的生命週期原則策略。