Lingua dominante

Puoi usare Amazon Comprehend per esaminare il testo e determinare la lingua dominante. Amazon Comprehend identifica la lingua utilizzando identificatori di RFC 5646: se esiste un identificatore ISO 639-1 a 2 lettere, con un sottotag regionale, se necessario, lo utilizza. Altrimenti, utilizza il codice ISO 639-2 a 3 lettere.

Per ulteriori informazioni su RFC 5646, vedere Tag per l'identificazione delle lingue sul sito Web IETF Tools.

La risposta include un punteggio che indica il livello di confidenza di Amazon Comprehend rispetto al fatto che una particolare lingua è la lingua dominante nel documento. Ogni punteggio è indipendente dagli altri punteggi. Il punteggio non indica che una lingua costituisca una percentuale particolare di un documento.

Se un documento lungo (come un libro) contiene più lingue, puoi suddividere il documento lungo in parti più piccole ed eseguire l'DetectDominantLanguageoperazione sulle singole parti. È quindi possibile aggregare i risultati per determinare la percentuale di ciascuna lingua nel documento più lungo.

Il rilevamento del linguaggio Amazon Comprehend presenta le seguenti limitazioni:

Non supporta il rilevamento fonetico del linguaggio. Ad esempio, non rileva «arigato» come giapponese o «nihao» come cinese.
Può avere difficoltà a distinguere coppie linguistiche simili, come l'indonesiano e il malese, o il bosniaco, il croato e il serbo.
Per ottenere risultati ottimali, fornite almeno 20 caratteri di testo di input.

Amazon Comprehend rileva le seguenti lingue.

Codice	Lingua
af	Afrikaans
am	Amarico
ar	Arabo
as	Assamese
az	Azero
ba	Bashkir
be	Bielorusso
bn	Bengalese
bs	Bosniaco
bg	Bulgaro
ca	catalano
ceb	Cebuano
cs	Ceco
cv	Chuvash
cy	Gallese
da	Danese
de	Tedesco
el	Greco
en	Italiano
eo	esperanto
et	Estone
eu	Basco
fa	Persiano
fi	Finlandese
fr	Francese
gd	gaelico scozzese
ga	irlandese
gl	Galiziano
gu	Gujarati
ht	haitiano
he	Ebraico
ha	Hausa
hi	Hindi
hr	Croato
hu	Ungherese
hy	Armeno
ilo	Iloko
id	Indonesiano
is	Islandese
it	Italiano
jv	Javanese
ja	Giapponese
kn	Kannada
ka	Georgiano
kk	Kazako
km	Khmer centrale
ky	kirghiso
ko	Coreano
ku	curda
lo	Lao
la	latino
lv	Lettone
lt	Lituano
lb	lussemburghese
ml	Malese
mt	Maltese
mr	Marathi
mk	Macedone
mg	malgascio
mn	Mongolo
ms	Malese
my	birmano
ne	Nepalese
new	Newari
nl	Olandese
no	Norvegese
or	Oriya
om	Oromo
pa	Punjabi
pl	Polacco
pt	Portoghese
ps	Spingere a
qu	Quechua
ro	Romeno
ru	Russo
sa	sanscrito
si	Singalese
sk	Slovacco
sl	Sloveno
sd	Sindhi
so	Somalo
es	Spagnolo
sq	Albanese
sr	Serbo
su	Sundanese
sw	Swahili
sv	Svedese
ta	Tamil
tt	Tartaro
te	Telugu
tg	Tagiko
tl	Tagalog
th	Thai
tk	turkmeno
tr	Turco
ug	Uiguro
uk	Ucraino
ur	Urdu
uz	Uzbeko
vi	Vietnamita
yi	yiddish
yo	Yoruba
zh	Cinese (semplificato)
zh-TW	Cinese (tradizionale)

È possibile utilizzare una delle seguenti operazioni per rilevare la lingua dominante in un documento o in un set di documenti.

L'DetectDominantLanguageoperazione restituisce un DominantLanguageoggetto. L'BatchDetectDominantLanguageoperazione restituisce un elenco di DominantLanguage oggetti, uno per ogni documento del batch. L'StartDominantLanguageDetectionJoboperazione avvia un lavoro asincrono che produce un file contenente un elenco di DominantLanguage oggetti, uno per ogni documento del lavoro.

L'esempio seguente è la risposta dell'operazione. DetectDominantLanguage


{
    "Languages": [
        {
            "LanguageCode": "en",
            "Score": 0.9793661236763
        }
    ]
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Frasi chiave

Sentiment