Lingua dominante - Amazon Comprehend

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Lingua dominante

Puoi usare Amazon Comprehend per esaminare il testo e determinare la lingua dominante. Amazon Comprehend identifica la lingua utilizzando identificatori di RFC 5646: se esiste un identificatore ISO 639-1 a 2 lettere, con un sottotag regionale, se necessario, lo utilizza. Altrimenti, utilizza il codice ISO 639-2 a 3 lettere.

Per ulteriori informazioni su RFC 5646, vedere Tag per l'identificazione delle lingue sul sito Web IETF Tools.

La risposta include un punteggio che indica il livello di confidenza di Amazon Comprehend rispetto al fatto che una particolare lingua è la lingua dominante nel documento. Ogni punteggio è indipendente dagli altri punteggi. Il punteggio non indica che una lingua costituisca una percentuale particolare di un documento.

Se un documento lungo (come un libro) contiene più lingue, puoi suddividere il documento lungo in parti più piccole ed eseguire l'DetectDominantLanguageoperazione sulle singole parti. È quindi possibile aggregare i risultati per determinare la percentuale di ciascuna lingua nel documento più lungo.

Il rilevamento del linguaggio Amazon Comprehend presenta le seguenti limitazioni:

  • Non supporta il rilevamento fonetico del linguaggio. Ad esempio, non rileva «arigato» come giapponese o «nihao» come cinese.

  • Può avere difficoltà a distinguere coppie linguistiche simili, come l'indonesiano e il malese, o il bosniaco, il croato e il serbo.

  • Per ottenere risultati ottimali, fornite almeno 20 caratteri di testo di input.

Amazon Comprehend rileva le seguenti lingue.

Codice Lingua
af Afrikaans
am Amarico
ar Arabo
as Assamese
az Azero
ba Bashkir
be Bielorusso
bn Bengalese
bs Bosniaco
bg Bulgaro
ca catalano
ceb Cebuano
cs Ceco
cv Chuvash
cy Gallese
da Danese
de Tedesco
el Greco
en Italiano
eo esperanto
et Estone
eu Basco
fa Persiano
fi Finlandese
fr Francese
gd gaelico scozzese
ga irlandese
gl Galiziano
gu Gujarati
ht haitiano
he Ebraico
ha Hausa
hi Hindi
hr Croato
hu Ungherese
hy Armeno
ilo Iloko
id Indonesiano
is Islandese
it Italiano
jv Javanese
ja Giapponese
kn Kannada
ka Georgiano
kk Kazako
km Khmer centrale
ky kirghiso
ko Coreano
ku curda
lo Lao
la latino
lv Lettone
lt Lituano
lb lussemburghese
ml Malese
mt Maltese
mr Marathi
mk Macedone
mg malgascio
mn Mongolo
ms Malese
my birmano
ne Nepalese
new Newari
nl Olandese
no Norvegese
or Oriya
om Oromo
pa Punjabi
pl Polacco
pt Portoghese
ps Spingere a
qu Quechua
ro Romeno
ru Russo
sa sanscrito
si Singalese
sk Slovacco
sl Sloveno
sd Sindhi
so Somalo
es Spagnolo
sq Albanese
sr Serbo
su Sundanese
sw Swahili
sv Svedese
ta Tamil
tt Tartaro
te Telugu
tg Tagiko
tl Tagalog
th Thai
tk turkmeno
tr Turco
ug Uiguro
uk Ucraino
ur Urdu
uz Uzbeko
vi Vietnamita
yi yiddish
yo Yoruba
zh Cinese (semplificato)
zh-TW Cinese (tradizionale)

È possibile utilizzare una delle seguenti operazioni per rilevare la lingua dominante in un documento o in un set di documenti.

L'DetectDominantLanguageoperazione restituisce un DominantLanguageoggetto. L'BatchDetectDominantLanguageoperazione restituisce un elenco di DominantLanguage oggetti, uno per ogni documento del batch. L'StartDominantLanguageDetectionJoboperazione avvia un lavoro asincrono che produce un file contenente un elenco di DominantLanguage oggetti, uno per ogni documento del lavoro.

L'esempio seguente è la risposta dell'operazione. DetectDominantLanguage

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }