Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Speicher
Frage |
Beispielantwort |
---|---|
Wo werden die Trainingsdaten gespeichert? |
Im Cloud-Speicher (z. B. Amazon S3, Dateispeicher, Blockspeicher oder Objektspeicher), im lokalen Speicher usw. |
Was sind die Speicheranforderungen für die Trainingsdaten und Modellartefakte (z. B. Kapazität, Haltbarkeit, Verfügbarkeit)? |
Speicher im Petabyte-Bereich, hohe Haltbarkeit (99,999999999% Haltbarkeit), hohe Verfügbarkeit usw. |
Was sind die Datenaufbewahrungs- und Backup-Anforderungen für die Trainingsdaten und Modellartefakte? |
Datenspeicherung für x Jahre, tägliche Backups, externe Backups usw. |
Welche Dateiformate werden hauptsächlich zum Speichern Ihrer KI-Trainingsdatensätze verwendet (z. B. CSV, JSON, HDF5 Parquet)? |
Parquet-Dateien für strukturierte Daten und HDF5 für große multidimensionale Arrays und unstrukturierte Daten wie Bilder und Text. Wir verwenden spezielle Formate, um beispielsweise das Laden von Daten während des Trainings TFRecord zu optimieren. |
Wie sind Ihre Trainingsdatensätze organisiert: als einzelne Dateien, in Datenbanken oder mithilfe spezieller KI-Datenformate? |
Kleine bis mittlere Datensätze werden aus Gründen der Flexibilität als einzelne Parquet-Dateien im Objektspeicher gespeichert. Große Datensätze werden aus Skalierungsgründen in einer verteilten Datenbank (Cassandra) gespeichert. |
Verwenden Sie Datenkomprimierungs- oder Kodierungstechniken speziell für generative KI-Trainingsdaten? |
Für tabellarische Daten verwenden wir Wörterbuchkodierungs- und Bitpacking-Techniken, die in Parquet verfügbar sind. Für Bilder verwenden wir die verlustbehaftete JPEG-Komprimierung mit für unsere Modelle optimierten Qualitätseinstellungen. |
Wie gehen Sie mit der Versionierung und Speicherung verschiedener Iterationen von Trainingsdatensätzen um? Welche Auswirkungen hat dies auf Ihren allgemeinen Speicherbedarf? |
Wir verwenden ein Datenversionssystem (DVC), das in unsere ML-Plattform integriert ist. |