Idioma dominante - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Idioma dominante

Você pode usar o Amazon Comprehend para examinar o texto e determinar o idioma dominante. O Amazon Comprehend identifica o idioma usando identificadores segundo o RFC 5646 — se houver um identificador ISO 639-1 de 2 letras, com uma subtag regional, se necessário, ele usará essas informações. Caso contrário, ele usará o código ISO 639-2 de 3 letras.

Para obter mais informações sobre o RFC 5646, consulte Tags para identificação de idiomas no site IETF Tools.

A resposta inclui uma pontuação que indica o nível de confiança que o Amazon Comprehend tem de que um determinado idioma é o idioma dominante no documento. Cada pontuação é independente das outras pontuações. A pontuação não indica que um idioma compõe uma porcentagem específica de um documento.

Se um documento longo (como um livro) contiver vários idiomas, você poderá dividi-lo em partes menores e executar a operação DetectDominantLanguage nas partes individuais. Em seguida, você poderá agregar os resultados para determinar a porcentagem de cada idioma no documento mais longo.

A detecção de linguagens do Amazon Comprehend tem as seguintes limitações:

  • Ela não oferece suporte à detecção de linguagem fonética. Por exemplo, ele não detecta “arigato” como japonês ou “nihao” como chinês.

  • O recurso pode ter dificuldade em distinguir pares de idiomas próximos, como indonésio e malaio; ou bósnio, croata e sérvio.

  • Para obter melhores resultados, forneça pelo menos 20 caracteres de texto de entrada.

O Amazon Comprehend detecta os seguintes idiomas.

Código Idioma
af Africâner
am Amárico
ar Árabe
as Assamês
az Azerbaijano
ba Bashkir
be Bielorrusso
bn Bengali
bs Bósnio
bg Búlgaro
ca Catalão
ceb Cebuano
cs Tcheco
cv Tchuvache
cy Galês
da Dinamarquês
de Alemão
el Grego
en Inglês
eo Esperanto
et Estoniano
eu Basco
fa Persa
fi Finlandês
fr Francês
gd Gaélico escocês
ga Irlandês
gl Galego
gu Gujarati
ht Haitiano
he Hebraico
ha Hauçá
hi Hindi
hr Croata
hu Húngaro
hy Armênio
ilo Ilocano
id Indonésio
is Islandês
it Italiano
jv Javanês
ja Japonês
kn Canarês
ka Georgiano
kk Cazaque
km Khmer Central
ky Quirguiz
ko Coreano
ku Curdo
lo Laosiano
la Latim
lv Letão
lt Lituano
lb Luxemburguês
ml Malaiala
mt Maltês
mr Marati
mk Macedônio
mg Malgaxe
mn Mongol
ms Malaio
my Birmanês
ne Nepalês
new Neuari
nl Holandês
no Norueguês
or Oriá
om Oromo
pa Punjabi
pl Polonês
pt Português
ps Pastó
qu Quechua
ro Romeno
ru Russo
sa Sânscrito
si Cingalês
sk Eslovaco
sl Esloveno
sd Sindi
so Somali
es Espanhol
sq Albanês
sr Sérvio
su Sudanês
sw Suaíli
sv Sueco
ta Tâmil
tt Tatárico
te Telugo
tg Tadjique
tl Tagalo
th Tailandês
tk Turcomano
tr Turco
ug Uigur
uk Ucraniano
ur Urdu
uz Uzbeque
vi Vietnamita
yi Iídiche
yo Iorubá
zh Chinês (simplificado)
zh-TW Chinês (tradicional)

Você pode usar qualquer uma das operações a seguir para detectar o idioma dominante em um documento ou conjunto de documentos.

A DetectDominantLanguage operação retorna um DominantLanguageobjeto. A operação BatchDetectDominantLanguage retorna uma lista de objetos DominantLanguage, uma para cada documento no lote. A operação StartDominantLanguageDetectionJob inicia um trabalho assíncrono que produz um arquivo contendo uma lista de objetos DominantLanguage, uma para cada documento no trabalho.

O exemplo a seguir é a resposta da operação DetectDominantLanguage.

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }