Origine dati Dati di addestramento rispetto ai dati di ottimizzazione

Modelli linguistici personalizzati

I modelli linguistici personalizzati sono progettati per migliorare l'accuratezza della trascrizione per il parlato specifico del dominio. Ciò include qualsiasi contenuto diverso da quello che ascolteresti nelle normali conversazioni quotidiane. Ad esempio, se stai trascrivendo gli atti di una conferenza scientifica, è improbabile che una trascrizione standard riconosca molti dei termini scientifici usati dai relatori. In questo caso, puoi addestrare un modello linguistico personalizzato per riconoscere i termini specializzati utilizzati nella tua disciplina.

A differenza dei vocabolari personalizzati, che aumentano il riconoscimento di una parola fornendo suggerimenti (come le pronunce), i modelli linguistici personalizzati apprendono il contesto associato a una determinata parola. Ciò include come e quando viene usata una parola e la relazione che una parola ha con le altre. Ad esempio, se addestri il tuo modello utilizzando articoli di ricerca sulla scienza del clima, il modello potrebbe imparare che “lastrone di ghiaccio” è una coppia di parole più probabile di “flusso di ghiaccio”.

Per visualizzare le lingue supportate per i modelli linguistici personalizzati, consulta Lingue supportate e funzionalità specifiche della lingua. Tieni presente che se includi un modello linguistico personalizzato nella tua richiesta, non puoi abilitare l'identificazione della lingua (devi specificare un codice linguistico).

Operazioni API specifiche per i modelli linguistici personalizzati

CreateLanguageModel, DeleteLanguageModel, DescribeLanguageModel, ListLanguageModels

Origine dati

Puoi utilizzare qualsiasi tipo di dati di testo che desideri per addestrare il tuo modello. Tuttavia, più il contenuto del testo è vicino a quello dell’audio, più preciso è il modello. Pertanto, è importante scegliere dati di testo che utilizzino gli stessi termini nello stesso contesto dell'audio.

I dati migliori per addestrare un modello sono le trascrizioni accurate. Questi dati sono considerati dati interni al dominio. I dati di testo interni al dominio hanno esattamente gli stessi termini, utilizzo e contesto dell'audio che desideri trascrivere.

Se non disponi di trascrizioni accurate, utilizza articoli di riviste, rapporti tecnici, libri bianchi, atti di conferenze, manuali di istruzioni, articoli giornalistici, contenuti di siti Web e qualsiasi altro testo che contenga i termini desiderati utilizzati in un contesto simile a quello dell'audio. Questi sono considerati dati relativi al dominio.

La creazione di un modello linguistico personalizzato robusto può richiedere una notevole quantità di dati di testo, che devono contenere i termini pronunciati nell'audio. Puoi fornire fino Amazon Transcribe a 2 GB di dati di testo per addestrare il tuo modello, denominati dati di addestramento. Facoltativamente, se non avete (o poche) trascrizioni interne al dominio, potete fornire Amazon Transcribe fino a 200 MB di dati di testo per ottimizzare il modello, i cosiddetti dati di ottimizzazione.

Dati di addestramento rispetto ai dati di ottimizzazione

Lo scopo della formazione dei dati è insegnare Amazon Transcribe a riconoscere nuovi termini e apprendere il contesto in cui questi termini vengono utilizzati. Per creare un modello robusto, Amazon Transcribe potrebbe richiedere un grande volume di dati di testo pertinenti. Si consiglia vivamente di fornire quanti più dati di addestramento possibile, fino al limite di 2 GB.

Lo scopo dell'ottimizzazione dei dati è aiutare a perfezionare e ottimizzare le relazioni contestuali apprese dai dati di addestramento. I dati di ottimizzazione non sono necessari per creare un modello linguistico personalizzato.

Sta a te decidere il modo migliore per selezionare i dati di addestramento e, facoltativamente, di ottimizzazione. Ogni caso è unico e dipende dal tipo e dalla quantità di dati a tua disposizione. I dati di ottimizzazione sono consigliati quando mancano i dati di addestramento interni al dominio.

Se scegli di includere entrambi i tipi di dati, non sovrapporre i dati di addestramento e ottimizzazione; i dati di addestramento e ottimizzazione devono essere unici. La sovrapposizione dei dati può influenzare e distorcere il modello linguistico personalizzato, influendo sulla sua precisione.

Come guida generale, consigliamo di utilizzare un testo accurato e interno al dominio come dati di addestramento, ove possibile. Di seguito sono riportati alcuni scenari generali, elencati in ordine di preferenza:

Se disponi di un testo con più di 10.000 parole di trascrizione accurato e pertinente al dominio, usalo come dati di addestramento. In questo caso, non è necessario includere i dati di ottimizzazione. Questo è lo scenario ideale per addestrare un modello di lingua personalizzato.
Se disponi di un testo di trascrizione accurato e pertinente al dominio che contiene meno di 10.000 parole e non ottieni i risultati desiderati, valuta la possibilità di ampliare i dati di addestramento con testi scritti relativi al dominio, come rapporti tecnici. In questo caso, riserva una piccola parte (10-25%) dei dati di trascrizione interni al dominio da utilizzare come dati di ottimizzazione.
Se non disponi di un testo di trascrizione interno al dominio, carica tutto il testo relativo al dominio come dati di addestramento. In questo caso, il testo in stile trascrizione è preferibile al testo scritto. Questo è lo scenario meno efficace per l’addestramento di un modello linguistico personalizzato.

Quando è il momento di creare il tuo modello, consulta Creazione di un modello linguistico personalizzato.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di un vocabolario personalizzato

Creazione di un modello linguistico personalizzato