主要语言 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

主要语言

您可以使用 Amazon Comprehend 检查文本以确定主要语言。Amazon Comprehend 使用 RFC 5646 中的标识符识别语言,如果有 2 个字母的 ISO 639-1 标识符,必要时带有区域子标签,则它会使用该标识符。否则,它将使用 ISO 639-2 3 个字母的代码。

有关 RFC 5646 的更多信息,请参阅 IETF 工具网站上用于识别语言的标签

回复中包含一个分数,该分数表明 Amazon Comprehend 对某一特定语言是文档中主要语言的置信度。每个分数都独立于其他分数。分数并不表示某种语言占文档的特定百分比。

如果长文档(例如一本书)包含多种语言,则可以将长文档分成较小的部分,然后对各个部分进行 DetectDominantLanguage 操作。然后,您可以汇总结果以确定较长文档中每种语言的百分比。

Amazon Comprehend 语言检测具有以下限制:

  • 它不支持语音语言检测。例如,它不会检测“arigato”为日语或“nihao”为中文。

  • 它可能很难区分近似的语言对,例如印尼语和马来语;或者波斯尼亚语、克罗地亚语和塞尔维亚语。

  • 为获得最佳结果,请提供至少 20 个字符的输入文本。

Amazon Comprehend 检测到以下语言。

代码 Language
af 南非荷兰语
am 阿姆哈拉语
ar 阿拉伯语
as 阿萨姆语
az 阿塞拜疆语
ba 巴什基尔语
be 白俄罗斯语
bn 孟加拉语
bs 波斯尼亚语
bg 保加利亚语
ca 加泰罗尼亚语
ceb 宿雾语
cs 捷克语
cv 楚瓦什语
cy 威尔士语
da 丹麦语
de 德语
el 希腊语
en English
eo 世界语
et 爱沙尼亚语
eu 巴斯克语
fa 波斯语
fi 芬兰语
fr French
gd 苏格兰盖尔语
ga 爱尔兰语
gl 加利西亚语
gu 古吉拉特语
ht 海地语
he 希伯来语
ha 豪萨语
hi 印地语
hr 克罗地亚语
hu 匈牙利语
hy 亚美尼亚语
ilo 伊洛卡诺语
id 印度尼西亚语
is 冰岛语
it 意大利语
jv 爪哇语
ja 日语
kn 卡纳达语
ka 格鲁吉亚语
kk 哈萨克语
km 中部高棉语
ky 吉尔吉斯语
ko 韩语
ku 库尔德语
lo 老挝语
la 拉丁语
lv 拉脱维亚语
lt 立陶宛语
lb 卢森堡语
ml 马拉雅拉姆语
mt 马耳他语
mr 马拉地语
mk 马其顿语
mg 马达加斯加语
mn 蒙古语
ms 马来语
my 缅甸语
ne 尼泊尔语
new 尼瓦尔语
nl 荷兰语
no 挪威语
or 奥里亚语
om 奥罗莫语
pa 旁遮普语
pl 波兰语
pt 葡萄牙语
ps 普什图语
qu 盖丘亚语
ro 罗马尼亚语
ru 俄语
sa 梵语
si 僧伽罗语
sk 斯洛伐克语
sl 斯洛文尼亚语
sd 信德语
so 索马里语
es 西班牙语
sq 阿尔巴尼亚语
sr 塞尔维亚语
su 巽他语
sw 斯瓦西里语
sv 瑞典语
ta 泰米尔语
tt 鞑靼语
te 泰卢固语
tg 塔吉克语
tl 塔加洛语
th 泰语
tk 土库曼语
tr 土耳其语
ug 维吾尔族语
uk 乌克兰语
ur 乌尔都语
uz 乌兹别克斯坦语
vi 越南语
yi 意第绪语
yo 约鲁巴语
zh 中文(简体)
zh-TW 中文(繁体)

您可以使用以下任意操作来检测一个文档或一组文档中的主要语言。

DetectDominantLanguage操作返回一个DominantLanguage对象。BatchDetectDominantLanguage 操作会返回一个 DominantLanguage 对象列表,批次中的每个文档对应一个对象。StartDominantLanguageDetectionJob 操作启动一个异步作业,该作业生成一个包含 DominantLanguage 对象列表的文件,每个对象对应作业中的每个文档。

以下示例是 DetectDominantLanguage 操作的响应。

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }