Penyimpanan - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Penyimpanan

Pertanyaan

Contoh respon

Di mana data pelatihan akan disimpan?

Di penyimpanan cloud (misalnya, Amazon S3, penyimpanan file, penyimpanan blok, atau penyimpanan objek), di penyimpanan lokal, dan sebagainya.

Apa persyaratan penyimpanan untuk data pelatihan dan artefak model (misalnya, kapasitas, daya tahan, ketersediaan)?

Penyimpanan skala petabyte, daya tahan tinggi (daya tahan 99,999999999%), ketersediaan tinggi, dan sebagainya.

Apa persyaratan retensi dan cadangan data untuk data pelatihan dan artefak model?

Retensi data selama x tahun, backup harian, backup off-site, dan sebagainya.

Format file mana yang terutama digunakan untuk menyimpan kumpulan data pelatihan AI Anda (misalnya, CSV, JSON, Parquet,)? HDF5

File parket untuk data terstruktur, dan HDF5 untuk array multidimensi besar dan data tidak terstruktur seperti gambar dan teks. Kami menggunakan format khusus seperti TFRecord untuk mengoptimalkan pemuatan data selama pelatihan.

Bagaimana kumpulan data pelatihan Anda diatur: sebagai file individual, dalam database, atau menggunakan format data AI khusus?

Kumpulan data kecil hingga menengah disimpan sebagai file Parket individual dalam penyimpanan objek untuk fleksibilitas. Dataset besar disimpan dalam database terdistribusi (Cassandra) untuk menangani skala.

Apakah Anda menggunakan teknik kompresi atau pengkodean data khusus untuk data pelatihan AI generatif?

Untuk data tabular, kami menggunakan teknik pengkodean kamus dan bit-packing yang tersedia di Parket. Untuk gambar, kami menggunakan kompresi JPEG lossy dengan pengaturan kualitas yang dioptimalkan untuk model kami.

Bagaimana Anda menangani pembuatan versi dan penyimpanan berbagai iterasi kumpulan data pelatihan? Apa dampaknya terhadap kebutuhan penyimpanan Anda secara keseluruhan?

Kami menggunakan sistem versi data (DVC) yang terintegrasi dengan platform ML kami.