Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Langue dominante
Vous pouvez utiliser Amazon Comprehend pour examiner le texte afin de déterminer la langue dominante. Amazon Comprehend identifie la langue à l'aide des identifiants de la RFC 5646. S'il existe un identifiant ISO 639-1 à 2 lettres, avec une sous-étiquette régionale si nécessaire, il l'utilise. Sinon, il utilise le code à 3 lettres ISO 639-2.
Pour plus d'informations sur la RFC 5646, consultez la section Tags pour identifier les langues
La réponse inclut un score qui indique le niveau de confiance d'Amazon Comprehend quant au fait qu'une langue particulière est la langue dominante du document. Chaque score est indépendant des autres scores. Le score n'indique pas qu'une langue constitue un pourcentage particulier d'un document.
Si un document long (tel qu'un livre) contient plusieurs langues, vous pouvez le diviser en petits morceaux et exécuter l'DetectDominantLanguage
opération sur chaque élément. Vous pouvez ensuite agréger les résultats pour déterminer le pourcentage de chaque langue dans le document le plus long.
La détection du langage par Amazon Comprehend présente les limites suivantes :
-
Il ne prend pas en charge la détection de la langue phonétique. Par exemple, il ne détecte pas « arigato » en japonais ou « nihao » en chinois.
-
Il peut être difficile de distinguer des paires linguistiques proches, telles que l'indonésien et le malais, ou le bosniaque, le croate et le serbe.
-
Pour de meilleurs résultats, saisissez au moins 20 caractères de texte.
Amazon Comprehend détecte les langues suivantes.
Code | Langue |
---|---|
af | Afrikaans |
am | Amharique |
ar | Arabe |
as | Assamais |
az | Azerbaïdjanais |
ba | Bachkir |
be | Biélorusse |
bn | Bengali |
bs | Bosniaque |
bg | Bulgare |
ca | Catalan |
ceb | Cebuano |
cs | Tchèque |
cv | Tchouvache |
cy | Gallois |
da | Danois |
de | Allemand |
el | Grec |
en | Anglais |
eo | espéranto |
et | Estonian |
eu | Basque |
fa | Persan |
fi | Finnois |
fr | Français |
gd | Gaélique écossais |
ga | irlandais |
gl | Galicien |
gu | Gujarati |
ht | Haïtien |
he | Hébreu |
ha | Haoussa |
hi | Hindi |
hr | Croate |
hu | Hongrois |
hy | Arménien |
ilo | Iloko |
id | Indonésien |
is | Islandais |
it | Italien |
jv | Javanais |
ja | Japonais |
kn | Kannada |
ka | Géorgien |
kk | Kazakh |
km | Khmer central |
ky | kirghize |
ko | Coréen |
ku | Kurde |
lo | Laos |
la | Latin |
lv | Letton |
lt | Lituanien |
lb | Luxembourgeois |
ml | Malayalam |
mt | Maltais |
mr | Marathi |
mk | Macédonien |
mg | Malgache |
mn | Mongol |
ms | Malais |
my | Birman |
ne | Népalais |
new | Newari |
nl | Néerlandais |
no | Norvégien |
or | Oriya |
om | Oromo |
pa | Pendjabi |
pl | Polonais |
pt | Portugais |
ps | Pushto |
qu | Quechua |
ro | Roumain |
ru | Russe |
sa | sanskrit |
si | Singhalais |
sk | Slovaque |
sl | Slovène |
sd | Sindhi |
so | Somali |
es | Espagnol |
sq | Albanais |
sr | Serbe |
su | Soundanais |
sw | Swahili |
sv | Suédois |
ta | Tamoul |
tt | Tatar |
te | Télougou |
tg | Tadjik |
tl | Tagalog |
th | Thaï |
tk | Turkmène |
tr | Turc |
ug | Ouïghour |
uk | Ukrainien |
ur | Urdu |
uz | Ouzbek |
vi | Vietnamien |
yi | yiddish |
yo | Yoruba |
zh | Chinois (simplifié) |
zh-TW | Chinois (Traditionnel) |
Vous pouvez utiliser l'une des opérations suivantes pour détecter la langue dominante dans un document ou un ensemble de documents.
L'DetectDominantLanguage
opération renvoie un DominantLanguageobjet. L'BatchDetectDominantLanguage
opération renvoie une liste d'DominantLanguage
objets, un pour chaque document du lot. L'StartDominantLanguageDetectionJob
opération démarre une tâche asynchrone qui produit un fichier contenant une liste d'DominantLanguage
objets, un pour chaque document de la tâche.
L'exemple suivant est la réponse de l'DetectDominantLanguage
opération.
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}