本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
存储
问题 |
响应示例 |
---|---|
训练数据将存储在哪里? |
在云存储(例如 Amazon S3、文件存储、块存储或对象存储)、本地存储等中。 |
训练数据和模型工件(例如容量、耐久性、可用性)的存储要求是什么? |
PB 级存储、高耐久性(99.999999999% 的耐久性)、高可用性等。 |
训练数据和模型工件的数据保留和备份要求是什么? |
数据保留 x 年、每日备份、异地备份等。 |
哪些文件格式主要用于存储 AI 训练数据集(例如 CSV、JSON、Parquet 等 HDF5)? |
Parquet 文件 HDF5 用于结构化数据、大型多维数组和非结构化数据,例如图像和文本。我们使用专门的格式, TFRecord 例如在训练期间优化数据加载。 |
您的训练数据集是如何组织的:作为单个文件、数据库或使用专门的 AI 数据格式? |
为了灵活起见,中小型数据集作为单独的 Parquet 文件存储在对象存储中。大型数据集存储在分布式数据库 (Cassandra) 中以应对规模。 |
您是否使用任何专门用于生成式 AI 训练数据的数据压缩或编码技术? |
对于表格数据,我们使用 Parquet 中提供的字典编码和位打包技术。对于图像,我们使用有损 JPEG 压缩,其质量设置针对我们的模型进行了优化。 |
您如何处理训练数据集不同迭代的版本控制和存储? 这对您的整体存储需求有什么影响? |
我们使用与机器学习平台集成的数据版本控制系统 (DVC)。 |