占优势的语言 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

占优势的语言

您可以使用 Amazon Comprehend 检查文本以确定主导语言。Amazon Comprehend 使用来自 RFC 5646 的标识符来识别语言 — 如果有 2 个字母 ISO 639-1 标识符,必要时还带有区域子标签,则使用该标识符。否则, 它将使用 ISO 639-2 三字母代码。有关 RFC 5646 的更多信息,请参阅用于识别语言的标签IETF Tool网站。

回复中包含一个分数,该分数表示 Amazon Comprehend 对特定语言是文档中占主导地位的语言的信心程度。每个分数都独立于其他分数——它并不表示语言占文档的特定百分比。

如果长文档(如书籍)是用多种语言编写的,则可以将长文档分成较小的部分,然后运行DetectDominantLanguage对单个零件进行操作。然后,您可以聚合结果以确定较长文档中每种语言的百分比。

亚马逊 Comprehend 可以检测以下语言。

代码 语言
af 南非荷兰语
am 阿姆哈拉语
ar 阿拉伯语
如同 阿萨姆人
az 阿塞拜疆语
BA 巴什基尔
白俄罗斯人
bn 孟加拉语
bs 波斯尼亚语
bg 保加利亚语
ca 加泰罗尼亚语
ceb Cebuano
cs 捷克语
CV Chuvash
cy 威尔士语
da 丹麦语
de 德语
el 希腊语
en 英语
eo 世界语
et 爱沙尼亚语
欧盟 巴斯克的
fa 波斯语
fi 芬兰语
fr 法语
gd 苏格兰盖尔语
GA 爱尔兰人
gl 加利西亚语
gu 古吉拉特语
HT 海地的
he 希伯来语
ha 豪萨语
hi 印地语
hr 克罗地亚语
hu 匈牙利语
为什么 亚美尼亚的
ilo Iloko
id 印度尼西亚语
冰岛语
意大利语
合资企业 爪哇人
ja 日语
kn 卡纳达语
ka 格鲁吉亚语
kk 哈萨克斯坦人
公里 中部高棉语
ky 吉尔吉斯
ko 韩语
ku 库尔德
LO Lao
LA 拉丁语
lv 拉脱维亚语
lt 立陶宛语
卢森堡语
毫升 马拉雅拉姆语
mt 马耳他语
先生 马拉地语
mk 马其顿人
mg 马达加斯加人
mn 蒙古语
ms 马来语
我的 缅甸人
NE 尼泊尔语
new Newari
nl 荷兰语
no 挪威语
Oriya
OM 奥罗莫
PA 旁遮普语
pl 波兰语
pt 葡萄牙语
ps Pushto
qu 克丘亚语
ro 罗马尼亚语
ru 俄语
sa 梵语
si 僧伽罗人的
sk 斯洛伐克语
sl 斯洛文尼亚语
sd Sindhi
so 索马里语
es 西班牙语
sq 阿尔巴尼亚语
sr 塞尔维亚语
Sundanese
sw 斯瓦希里语
sv 瑞典语
ta 泰米尔语
tt 塔塔尔语
TE 泰卢固语
tg 塔吉克人
tl 塔加洛语
th 泰语
tk 土库曼
tr 土耳其语
ug 维吾尔族
uk 乌克兰语
ur 乌尔都语
uz 乌兹别克的
vi 越南语
yi 意第绪语
约鲁巴
zh 简体中文
zh-TW 繁体中文

您可以使用以下任一操作来检测文档或一组文档中的主导语言。

这些区域有:DetectDominantLanguage操作返回DominantLanguage对象。这些区域有:BatchDetectDominantLanguage操作返回一组DominantLanguage对象,批中的每个文档对应一个。这些区域有:StartDominantLanguageDetectionJob操作启动一个异步作业,该作业生成一个文件,其中包含DominantLanguage对象,作业中的每个文档对应一个。

以下示例是来自响应DetectDominantLanguageoperation.

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }