Archivio offline - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Archivio offline

L'archivio offline viene utilizzato per i dati storici quando non è necessario recuperarli in meno di un secondo. Viene in genere utilizzato per l'esplorazione dei dati, l'addestramento dei modelli e l'inferenza batch.

Quando si abilitano sia l'archivio online che quello offline per il proprio gruppo di funzionalità, entrambi gli archivi si sincronizzano per evitare discrepanze tra i dati di addestramento e quelli di fornitura. Tieni presente che un gruppo di funzionalità dell'archivio online con il tipo di archiviazione InMemory abilitato attualmente non supporta un gruppo di funzionalità corrispondente nell'archivio offline (nessuna replica da online a offline). Per ulteriori informazioni sulla distribuzione del modello ML in Amazon SageMaker Feature Store, consultaArchivio online.

L'archivio offline contiene le seguenti opzioni TableFormat. Per informazioni sui contenuti del negozio offline, OfflineStoreConfigconsulta Amazon SageMaker API Reference.

Formato di tabella Glue

Il Glue formato (predefinito) è un formato di tabella standard di tipo Hive per AWS Glue. Con AWS Glue, puoi scoprire, preparare, spostare e integrare dati provenienti da più fonti. Include anche strumenti aggiuntivi di produttività e gestione dei dati per la creazione, l'esecuzione di processi e l'implementazione di flussi di lavoro aziendali. Per ulteriori informazioni sull' AWS Glue, vedi Cos'è AWS Glue?.

Formato di tabella Iceberg

Il formato Iceberg (consigliato) è un formato a tabella aperta per tabelle analitiche di dimensioni molto grandi. Con Iceberg, è possibile compattare i file di dati di piccole dimensioni in un numero inferiore di file di grandi dimensioni nella partizione, ottenendo query notevolmente più veloci. Questa operazione di compattazione è simultanea e non influisce sulle operazioni di lettura e scrittura in corso sul gruppo di funzionalità. Per ulteriori informazioni sull'ottimizzazione delle tabelle Iceberg, consulta Amazon Athena e AWS Lake Formationguide per l'utente.

Iceberg gestisce grandi raccolte di file sotto forma di tabelle e supporta le moderne operazioni analitiche di data lake. Se scegli l'Icebergopzione quando crei nuovi gruppi di funzionalità, Amazon SageMaker Feature Store crea le Iceberg tabelle utilizzando il formato di file Parquet e le registra con AWS Glue Data Catalog. Per ulteriori informazioni sui formati delle Iceberg tabelle, consulta Uso delle tabelle Apache Iceberg.

Importante

Tieni presente che per i gruppi di funzionalità in formato di tabella Iceberg, devi specificare String come tipo di funzionalità per l'ora dell'evento. Se specifichi un altro tipo, non puoi creare correttamente il gruppo di funzionalità.