Data lake Flywheel - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Data lake Flywheel

Quando crei un volano, Amazon Comprehend crea un data lake nel tuo account per contenere tutti i dati del volano, come i dati di input e output necessari per le versioni del modello.

Amazon Comprehend crea il data lake nella posizione Amazon S3 specificata al momento della creazione del flywheel. Puoi specificare la posizione come bucket Amazon S3 o come nuova cartella in un bucket Amazon S3.

Struttura delle cartelle Data Lake

Quando Amazon Comprehend crea il data lake, configura la seguente struttura di cartelle nella posizione Amazon S3.

avvertimento

Amazon Comprehend gestisce l'organizzazione e i contenuti delle cartelle del data lake. Utilizza sempre le operazioni dell'API Amazon Comprehend per modificare le cartelle del data lake, altrimenti il tuo flywheel potrebbe non funzionare correttamente.

Document Pool Annotations Pool Staging Model Datasets (data for each version of the model) VersionID-1 Training Test ModelStats VersionID-2 Training Test ModelStats

Per visualizzare la valutazione dell'addestramento di una versione del modello, esegui questi passaggi:

  1. Aprire la cartella denominata Model Datasets al livello principale del data lake. Questa cartella contiene una sottocartella per ogni versione del modello.

  2. Apri la cartella per la versione del modello che ti interessa.

  3. Aprite la cartella denominata ModelStatsper visualizzare le statistiche relative al modello.

Gestione del data lake

Amazon Comprehend esegue le seguenti attività per gestire il data lake per tuo conto:

  • Definisce la struttura delle cartelle del data lake e inserisce i set di dati nelle cartelle appropriate.

  • Gestisce i documenti di input (come file di testo e file di annotazioni) necessari per addestrare il modello.

  • Gestisce i dati di output di addestramento e valutazione associati a ciascuna versione del modello.

  • Gestisce la crittografia per i file archiviati nel data lake.

Amazon Comprehend esegue tutte le operazioni di creazione e aggiornamento dei dati per il data lake. Conservi l'accesso completo ai dati nel data lake. Per esempio:

  • Hai pieno accesso ai contenuti del data lake.

  • Il data lake rimane disponibile dopo l'eliminazione del volano.

  • Puoi configurare i log di accesso per il bucket Amazon S3 che contiene il data lake.

  • Puoi fornire chiavi di crittografia per i dati. Queste vengono specificate quando si crea il volano.

È preferibile seguire le best practice seguenti:

  • Non aggiungete manualmente le vostre cartelle o i vostri file nel data lake. Non modificare o eliminare alcun file nel data lake.

  • Utilizza sempre le operazioni di creazione e aggiornamento di Amazon Comprehend per aggiungere o modificare dati nel data lake. Ad esempio, utilizzalo per CreateDataset fornire dati di addestramento o test e StartFlywheelIteration per generare dati di valutazione per le versioni del modello.

  • La struttura del data lake può evolversi nel tempo. Non creare script o programmi downstream che si basino esplicitamente sulla struttura del data lake.

  • Quando fornisci una posizione del data lake per il volano, ti consigliamo di creare un prefisso comune per i dati relativi a tutti i volani o di utilizzare un prefisso diverso per ogni volano. Non è consigliabile utilizzare il percorso completo del data lake di un volano come prefisso per un altro volano.