離線儲存 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

離線儲存

當不需要低於一秒的擷取時,離線儲存用於歷史資料。它通常用於資料探索、模型訓練和批次推論。

當您為特徵群組啟用線上和離線儲存時,這兩個儲存都會同步,以避免訓練和提供資料之間的差異。請注意,啟用 InMemory 儲存類型的線上儲存特徵群組目前不支援離線儲存中的對應特徵群組 (無線上至離線複寫)。如需 Amazon SageMaker 功能商店中 ML 模型服務的詳細資訊,請參閱線上儲存

離線儲存包含下列 TableFormat 選項。如需離線商店內容的相關資訊,請參閱 Amazon SageMaker API 參考OfflineStoreConfig中的。

Glue 資料表格式

Glue 格式 (預設值) 是 AWS Glue的標準 Hive 類型資料表格式。您可以使用 AWS Glue探索、準備、移動和整合來自多個來源的資料。它還包括用於編寫、執行任務和實作業務工作流程的額外生產力和資料操作工具。如需有關的詳細資訊 AWS Glue,請參閱什麼是 AWS Glue?

Iceberg 資料表格式

Iceberg 格式 (建議使用) 是開放式的資料表格式,用於非常大型的分析資料表。使用 Iceberg,您可以將小型資料檔案壓縮為分割區中較少的大型檔案,從而大幅加快查詢速度。此壓縮操作是並發的,並且不會影響特徵群組上正在進行的讀取和寫入操作。如需有關最佳化冰山表格的詳細資訊,請參閱 Amazon AthenaAWS Lake Formation使用者指南。

Iceberg 以資料表的形式管理大型檔案集合,並支援現代分析資料湖作業。如果您在建立新功能群組時Iceberg選擇此選項,Amazon SageMaker 功能商店會使用 Parquet 檔案格式建立Iceberg表格,並將這些表格註冊到 AWS Glue Data Catalog. 如需有關資料Iceberg表格式的詳細資訊,請參閱使用 Apache 冰山資料表

重要

請注意,對於使用 Iceberg 表格格式的特徵群組,您必須指定 String 為事件時間的特徵類型。如果指定任何其他類型,則無法成功建立特徵群組。