Dominante Sprache - Amazon Comprehend

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dominante Sprache

Sie können Amazon Comprehend verwenden, um Text zu untersuchen, um die vorherrschende Sprache zu bestimmen. Amazon Comprehend identifiziert die Sprache mithilfe von Kennungen aus RFC 5646 – wenn es eine zweistellige ISO 639-1-Kennung mit einem regionalen Untertag gibt, wird diese verwendet. Andernfalls wird der Code ISO 639-2 aus drei Buchstaben verwendet.

Weitere Informationen zu RFC 5646 finden Sie unter Tags zur Identifizierung von Sprachen auf der Website der IETF-Tools.

Die Antwort enthält eine Punktzahl, die das Konfidenzniveau angibt, das Amazon Comprehend hat, dass eine bestimmte Sprache die dominierende Sprache im Dokument ist. Jeder Wert ist unabhängig von den anderen Werten. Der Wert gibt nicht an, dass eine Sprache einen bestimmten Prozentsatz eines Dokuments ausmacht.

Wenn ein langes Dokument (z. B. ein Buch) mehrere Sprachen enthält, können Sie das lange Dokument in kleinere Teile aufteilen und die DetectDominantLanguage Operation für die einzelnen Teile ausführen. Anschließend können Sie die Ergebnisse aggregieren, um den Prozentsatz jeder Sprache im längeren Dokument zu bestimmen.

Die Spracherkennung von Amazon Comprehend hat die folgenden Einschränkungen:

  • Es unterstützt keine phonetische Spracherkennung. Beispielsweise erkennt es „Arigino“ nicht als Japanisch oder „Nihao“ als Chinesisch.

  • Es kann Schwierigkeiten haben, nahe Sprachpaare wie Indonesisch und Malaiisch oder Bosnisch, Italienisch und Serbisch zu unterscheiden.

  • Um optimale Ergebnisse zu erzielen, geben Sie mindestens 20 Zeichen Eingabetext an.

Amazon Comprehend erkennt die folgenden Sprachen.

Code Sprache
af Afrikaans
am Amharisch
ar Arabisch
as Assam
az Aserbaidschanisch
ba Baschkirisch
be Belarussisch
bn Bengalisch
bs Bosnisch
bg Bulgarisch
ca Katalanisch
ceb Cebuano
cs Tschechisch
cv Chumbash
cy Walisisch
da Dänisch
de Deutsch
el Griechisch
en Englisch
eo Esperanto
et Estnisch
eu Baskisch
fa Persisch
fi Finnisch
fr Französisch
gd Estlisch-griechisch
ga Trichter
gl Galizisch
gu Gujarati
ht Haitianisch
he Hebräisch
ha Hausa
hi Hindi
hr Kroatisch
hu Ungarisch
hy Armenisch
ilo Iloko
id Indonesisch
is Isländisch
it Italienisch
jv Javanesisch
ja Japanisch
kn Kannada
ka Georgisch
kk Kasachisch
km Zentraler Khmer
ky Kirghiz
ko Koreanisch
ku Poldisch
lo Lao
la Lateinisch
lv Lettisch
lt Litauisch
lb Luxemburgisch
ml Malayalam
mt Maltesisch
mr Marathi
mk Mazedonisch
mg Malagasie
mn Mongolisch
ms Malaiisch
my Burmesisch
ne Nepali
new Newari
nl Niederländisch
no Norwegisch
or Orija
om Oromo
pa Pandschabi
pl Polnisch
pt Portugiesisch
ps Pushto
qu Quechua
ro Rumänisch
ru Russisch
sa Sanskrit
si Singhalesisch
sk Slowakisch
sl Slowenisch
sd Sindhi
so Somali
es Spanisch
sq Albanisch
sr Serbisch
su Sundanesisch
sw Swahili
sv Schwedisch
ta Tamil
tt Tatarisch
te Telugu
tg Tajik
tl Tagalog
th Thailändisch
tk Turkmen
tr Türkisch
ug Uighur
uk Ukrainisch
ur Urdu
uz Usbekisch
vi Vietnamesisch
yi Yiddisch
yo Yorgien
zh Chinesisch (vereinfacht)
zh-TW Chinesisch (traditionell)

Sie können eine der folgenden Operationen verwenden, um die vorherrschende Sprache in einem Dokument oder einer Reihe von Dokumenten zu erkennen.

Die -DetectDominantLanguageOperation gibt ein -DominantLanguageObjekt zurück. Die BatchDetectDominantLanguage Operation gibt eine Liste von DominantLanguage Objekten zurück, eines für jedes Dokument im Batch. Der StartDominantLanguageDetectionJob Vorgang startet einen asynchronen Auftrag, der eine Datei mit einer Liste von DominantLanguage Objekten erzeugt, eines für jedes Dokument im Auftrag.

Das folgende Beispiel zeigt die Antwort der -DetectDominantLanguageOperation.

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }