[Storage (ストレージ)] - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

[Storage (ストレージ)]

質問

レスポンスの例

トレーニングデータはどこに保存されますか?

クラウドストレージ (Amazon S3、ファイルストレージ、ブロックストレージ、オブジェクトストレージなど)、オンプレミスストレージなど。

トレーニングデータとモデルアーティファクト (容量、耐久性、可用性など) のストレージ要件は何ですか?

ペタバイト規模のストレージ、高耐久性 (99.999999999% の耐久性)、高可用性など。

トレーニングデータとモデルアーティファクトのデータ保持とバックアップの要件は何ですか?

x 年間のデータ保持、日次バックアップ、オフサイトバックアップなど。

AI トレーニングデータセット (CSV、JSON、Parquet、HDF5 など) の保存に主に使用されるファイル形式はどれですか?

構造化データ用の Parquet ファイル、大きな多次元配列用の HDF5、画像やテキストなどの非構造化データ。TFRecord などの特殊な形式を使用して、トレーニング中のデータのロードを最適化します。

トレーニングデータセットは、個々のファイル、データベース、または特殊な AI データ形式を使用してどのように編成されていますか?

小~中規模のデータセットは、柔軟性のためにオブジェクトストレージに個別の Parquet ファイルとして保存されます。大規模なデータセットは、スケールを処理するために分散データベース (Cassandra) に保存されます。

生成 AI トレーニングデータ専用のデータ圧縮またはエンコーディング手法を使用していますか?

表形式データには、Parquet で利用可能なディクショナリエンコーディングとビットパッキング手法を使用します。イメージの場合、モデルに最適化された品質設定で、損失のある JPEG 圧縮を使用します。

トレーニングデータセットのさまざまな反復のバージョニングとストレージをどのように処理しますか? これはストレージの全体的なニーズにどのような影響を与えますか?

ML プラットフォームと統合されたデータバージョニングシステム (DVC) を使用します。