本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
儲存
問題 |
回應範例 |
---|---|
訓練資料會存放在何處? |
在雲端儲存體 (例如 Amazon S3、檔案儲存體、區塊儲存體或物件儲存體)、內部部署儲存體等。 |
訓練資料和模型成品的儲存需求為何 (例如,容量、耐用性、可用性)? |
PB 級儲存、高耐用性 (99.999999999% 耐用性)、高可用性等。 |
訓練資料和模型成品的資料保留和備份需求是什麼? |
x 年的資料保留、每日備份、異地備份等。 |
哪些檔案格式主要用於存放 AI 訓練資料集 (例如 CSV、JSON、Parquet、HDF5)? |
用於結構化資料的 Parquet 檔案,以及用於大型多維陣列和非結構化資料的 HDF5,例如影像和文字。我們使用特殊格式,例如 TFRecord,以在訓練期間最佳化資料載入。 |
如何組織訓練資料集:作為個別檔案、在資料庫中或使用特殊 AI 資料格式? |
中小型資料集會儲存為物件儲存體中的個別 Parquet 檔案,以提供彈性。大型資料集會存放在分散式資料庫 (Cassandra) 中來處理擴展。 |
您是否特別針對生成式 AI 訓練資料使用任何資料壓縮或編碼技術? |
對於表格式資料,我們使用 Parquet 中提供的字典編碼和位元封裝技術。對於影像,我們使用失真 JPEG 壓縮搭配針對模型最佳化的品質設定。 |
如何處理訓練資料集不同反覆運算的版本控制和儲存? 這對您的整體儲存需求有何影響? |
我們使用與 ML 平台整合的資料版本控制系統 (DVC)。 |