儲存 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

儲存

問題

回應範例

訓練資料會存放在何處?

在雲端儲存體 (例如 Amazon S3、檔案儲存體、區塊儲存體或物件儲存體)、內部部署儲存體等。

訓練資料和模型成品的儲存需求為何 (例如,容量、耐用性、可用性)?

PB 級儲存、高耐用性 (99.999999999% 耐用性)、高可用性等。

訓練資料和模型成品的資料保留和備份需求是什麼?

x 年的資料保留、每日備份、異地備份等。

哪些檔案格式主要用於存放 AI 訓練資料集 (例如 CSV、JSON、Parquet、HDF5)?

用於結構化資料的 Parquet 檔案,以及用於大型多維陣列和非結構化資料的 HDF5,例如影像和文字。我們使用特殊格式,例如 TFRecord,以在訓練期間最佳化資料載入。

如何組織訓練資料集:作為個別檔案、在資料庫中或使用特殊 AI 資料格式?

中小型資料集會儲存為物件儲存體中的個別 Parquet 檔案,以提供彈性。大型資料集會存放在分散式資料庫 (Cassandra) 中來處理擴展。

您是否特別針對生成式 AI 訓練資料使用任何資料壓縮或編碼技術?

對於表格式資料,我們使用 Parquet 中提供的字典編碼和位元封裝技術。對於影像,我們使用失真 JPEG 壓縮搭配針對模型最佳化的品質設定。

如何處理訓練資料集不同反覆運算的版本控制和儲存? 這對您的整體儲存需求有何影響?

我們使用與 ML 平台整合的資料版本控制系統 (DVC)。