建議的資料層

如果您使用非敏感資料，例如不包含個人身分識別資訊 (PII) 的資料，我們建議您在上的資料湖中使用至少三個不同的資料層 AWS 雲端。

不過，根據資料的複雜性和使用案例，您可能需要額外的層。例如，如果您使用敏感資料，例如 PII 資料，我們建議您使用額外的 Amazon Simple Storage Service (Amazon S3) 儲存貯體做為登陸區域。然後，在將資料移至原始資料層之前遮罩資料。如需詳細資訊，請參閱本指南的處理敏感資料一節。

每個資料層都必須有個別的 Amazon S3 儲存貯體。下表說明建議的資料層。

資料層名稱	描述	生命週期政策策略範例
原始	包含原始、未處理的資料。資料會擷取到此層中的資料湖。如果可能，您應該保留原始檔案格式，並在 Amazon S3 儲存貯體中開啟版本控制。	一年後，將檔案移至 Amazon S3 不常存取 (IA) 儲存類別。在 Amazon S3 IA 兩年後，將其封存至 Amazon S3 Glacier 儲存類別。
階段	包含針對取用最佳化的中繼處理資料（例如 CSV 到 Apache Parquet 轉換原始檔案或資料轉換）。 AWS Glue 任務會從原始層讀取檔案並驗證資料。然後， AWS Glue 任務將資料存放在 Apache Parquet 格式的檔案中，中繼資料存放在中的資料表中 AWS Glue Data Catalog。	資料可以在定義的時段後或根據組織的需求刪除。有些資料衍生項目，例如原始 JSON 格式的 Apache Avro 轉換，可以在較短的時間之後從資料湖中移除，例如 90 天後。
分析	包含使用就緒格式之特定使用案例的彙總資料，例如 Apache Parquet。	資料可以移至 Amazon S3 IA，然後在定義的時段後或根據您的組織需求刪除。

資料層名稱

描述

生命週期政策策略範例

原始

包含原始、未處理的資料。資料會擷取到此層中的資料湖。

如果可能，您應該保留原始檔案格式，並在 Amazon S3 儲存貯體中開啟版本控制。

一年後，將檔案移至 Amazon S3 不常存取 (IA) 儲存類別。在 Amazon S3 IA 兩年後，將其封存至 Amazon S3 Glacier 儲存類別。

階段

包含針對取用最佳化的中繼處理資料（例如 CSV 到 Apache Parquet 轉換原始檔案或資料轉換）。

AWS Glue 任務會從原始層讀取檔案並驗證資料。然後， AWS Glue 任務將資料存放在 Apache Parquet 格式的檔案中，中繼資料存放在中的資料表中 AWS Glue Data Catalog。

資料可以在定義的時段後或根據組織的需求刪除。

有些資料衍生項目，例如原始 JSON 格式的 Apache Avro 轉換，可以在較短的時間之後從資料湖中移除，例如 90 天後。

分析

包含使用就緒格式之特定使用案例的彙總資料，例如 Apache Parquet。

資料可以移至 Amazon S3 IA，然後在定義的時段後或根據您的組織需求刪除。

注意

您必須根據組織需求、法規要求、查詢模式和成本考量來評估所有建議的生命週期政策策略。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

簡介

命名 Amazon S3 儲存貯體