本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
主要语言
您可以使用 Amazon Comprehend 检查文本以确定主要语言。Amazon Comprehend 使用 RFC 5646 中的标识符识别语言,如果有 2 个字母的 ISO 639-1 标识符,必要时带有区域子标签,则它会使用该标识符。否则,它将使用 ISO 639-2 3 个字母的代码。
有关 RFC 5646 的更多信息,请参阅 IETF 工具网站上用于识别语言的标签
回复中包含一个分数,该分数表明 Amazon Comprehend 对某一特定语言是文档中主要语言的置信度。每个分数都独立于其他分数。分数并不表示某种语言占文档的特定百分比。
如果长文档(例如一本书)包含多种语言,则可以将长文档分成较小的部分,然后对各个部分进行 DetectDominantLanguage
操作。然后,您可以汇总结果以确定较长文档中每种语言的百分比。
Amazon Comprehend 语言检测具有以下限制:
-
它不支持语音语言检测。例如,它不会检测“arigato”为日语或“nihao”为中文。
-
它可能很难区分近似的语言对,例如印尼语和马来语;或者波斯尼亚语、克罗地亚语和塞尔维亚语。
-
为获得最佳结果,请提供至少 20 个字符的输入文本。
Amazon Comprehend 检测到以下语言。
代码 | Language |
---|---|
af | 南非荷兰语 |
am | 阿姆哈拉语 |
ar | 阿拉伯语 |
as | 阿萨姆语 |
az | 阿塞拜疆语 |
ba | 巴什基尔语 |
be | 白俄罗斯语 |
bn | 孟加拉语 |
bs | 波斯尼亚语 |
bg | 保加利亚语 |
ca | 加泰罗尼亚语 |
ceb | 宿雾语 |
cs | 捷克语 |
cv | 楚瓦什语 |
cy | 威尔士语 |
da | 丹麦语 |
de | 德语 |
el | 希腊语 |
en | English |
eo | 世界语 |
et | 爱沙尼亚语 |
eu | 巴斯克语 |
fa | 波斯语 |
fi | 芬兰语 |
fr | French |
gd | 苏格兰盖尔语 |
ga | 爱尔兰语 |
gl | 加利西亚语 |
gu | 古吉拉特语 |
ht | 海地语 |
he | 希伯来语 |
ha | 豪萨语 |
hi | 印地语 |
hr | 克罗地亚语 |
hu | 匈牙利语 |
hy | 亚美尼亚语 |
ilo | 伊洛卡诺语 |
id | 印度尼西亚语 |
is | 冰岛语 |
it | 意大利语 |
jv | 爪哇语 |
ja | 日语 |
kn | 卡纳达语 |
ka | 格鲁吉亚语 |
kk | 哈萨克语 |
km | 中部高棉语 |
ky | 吉尔吉斯语 |
ko | 韩语 |
ku | 库尔德语 |
lo | 老挝语 |
la | 拉丁语 |
lv | 拉脱维亚语 |
lt | 立陶宛语 |
lb | 卢森堡语 |
ml | 马拉雅拉姆语 |
mt | 马耳他语 |
mr | 马拉地语 |
mk | 马其顿语 |
mg | 马达加斯加语 |
mn | 蒙古语 |
ms | 马来语 |
my | 缅甸语 |
ne | 尼泊尔语 |
new | 尼瓦尔语 |
nl | 荷兰语 |
no | 挪威语 |
or | 奥里亚语 |
om | 奥罗莫语 |
pa | 旁遮普语 |
pl | 波兰语 |
pt | 葡萄牙语 |
ps | 普什图语 |
qu | 盖丘亚语 |
ro | 罗马尼亚语 |
ru | 俄语 |
sa | 梵语 |
si | 僧伽罗语 |
sk | 斯洛伐克语 |
sl | 斯洛文尼亚语 |
sd | 信德语 |
so | 索马里语 |
es | 西班牙语 |
sq | 阿尔巴尼亚语 |
sr | 塞尔维亚语 |
su | 巽他语 |
sw | 斯瓦西里语 |
sv | 瑞典语 |
ta | 泰米尔语 |
tt | 鞑靼语 |
te | 泰卢固语 |
tg | 塔吉克语 |
tl | 塔加洛语 |
th | 泰语 |
tk | 土库曼语 |
tr | 土耳其语 |
ug | 维吾尔族语 |
uk | 乌克兰语 |
ur | 乌尔都语 |
uz | 乌兹别克斯坦语 |
vi | 越南语 |
yi | 意第绪语 |
yo | 约鲁巴语 |
zh | 中文(简体) |
zh-TW | 中文(繁体) |
您可以使用以下任意操作来检测一个文档或一组文档中的主要语言。
该DetectDominantLanguage
操作返回一个DominantLanguage对象。BatchDetectDominantLanguage
操作会返回一个 DominantLanguage
对象列表,批次中的每个文档对应一个对象。StartDominantLanguageDetectionJob
操作启动一个异步作业,该作业生成一个包含 DominantLanguage
对象列表的文件,每个对象对应作业中的每个文档。
以下示例是 DetectDominantLanguage
操作的响应。
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9793661236763
}
]
}