儲存 - AWS 方案指引

儲存

問題	回應範例
訓練資料會存放在何處？	在雲端儲存體（例如 Amazon S3、檔案儲存體、區塊儲存體或物件儲存體）、內部部署儲存體等。
訓練資料和模型成品的儲存需求為何（例如，容量、耐用性、可用性）？	PB 級儲存、高耐用性 (99.999999999% 耐用性）、高可用性等。
訓練資料和模型成品的資料保留和備份需求是什麼？	x 年的資料保留、每日備份、異地備份等。
哪些檔案格式主要用於存放 AI 訓練資料集（例如 CSV、JSON、Parquet、HDF5)？	用於結構化資料的 Parquet 檔案，以及用於大型多維陣列和非結構化資料的 HDF5，例如影像和文字。我們使用特殊格式，例如 TFRecord，以在訓練期間最佳化資料載入。
如何組織訓練資料集：作為個別檔案、在資料庫中或使用特殊 AI 資料格式？	中小型資料集會儲存為物件儲存體中的個別 Parquet 檔案，以提供彈性。大型資料集會存放在分散式資料庫 (Cassandra) 中來處理擴展。
您是否特別針對生成式 AI 訓練資料使用任何資料壓縮或編碼技術？	對於表格式資料，我們使用 Parquet 中提供的字典編碼和位元封裝技術。對於影像，我們使用失真 JPEG 壓縮搭配針對模型最佳化的品質設定。
如何處理訓練資料集不同反覆運算的版本控制和儲存？這對您的整體儲存需求有何影響？	我們使用與 ML 平台整合的資料版本控制系統 (DVC)。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

架構

法規與合規