主要言語 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

主要言語

Amazon Comprehend を使用してテキストを調べ、主要言語を判断できます。Amazon Comprehend は、RFC 5646 の識別子を使用して言語を識別します。2 文字の ISO 639-1 識別子があり、必要に応じて地域のサブタグがある場合は、それを使用します。それ以外の場合は ISO 639-2 の 3 文字コードを使用します。

RFC 5646 の詳細は、IETF ツールウェブサイトの「言語識別用タグ」を参照してください。

応答には、特定の言語がドキュメント内の主要な言語であるという Amazon Comprehend の信頼レベルを示すスコアが含まれます。各スコアは他のスコアとは無関係です。スコアは、ある言語が文書の特定の割合を占めていることを示すものではありません。

長い文書 (本など) に複数の言語が含まれている場合は、長い文書を小さく分割して、個々の部分に対して DetectDominantLanguage 演算を実行できます。その結果を集計して、長い文書に含まれる各言語の割合を判断できます。

Amazon Comprehend の言語検出には次の制約があります。

  • 音声言語検出には対応していません。たとえば、「arigato」を日本語として、「nihao」を中国語として検出しません。

  • インドネシア語とマレー語、ボスニア語、クロアチア語、セルビア語など、近い言語ペアを区別するのが難しい場合があります。

  • 最良の結果を得るには、20 文字以上のテキストを入力してください。

Amazon Comprehend は次の言語を検出します。

Code 言語
af アフリカーンス語
am アムハラ語
ar アラビア語
as アッサム語
az アゼルバイジャン語
ba バシキール語
be ベラルーシ語
bn ベンガル語
bs ボスニア語
bg ブルガリア語
ca カタロニア語
ceb セブアノ語
cs チェコ語
cv チュヴァシュ語
cy ウェールズ語
da デンマーク語
de ドイツ語
el ギリシャ語
en 英語
eo エスペラント語
et エストニア語
eu バスク語
fa ペルシャ語
fi フィンランド語
fr フランス語
gd スコティッシュゲール語
ga アイルランド語
gl ガリシア語
gu グジャラート語
ht ハイチ語
he ヘブライ語
ha ハウサ語
hi ヒンディー語
hr クロアチア語
hu ハンガリー語
hy アルメニア語
ilo イロコ語
id インドネシア語
is アイスランド語
it イタリア語
jv ジャワ語
ja 日本語
kn カンナダ語
ka グルジア語
kk カザフ語
km 中部クメール語
ky キルギス語
ko 韓国語
ku クルド語
lo ラオス語
la ラテン語
lv ラトビア語
lt リトアニア語
lb ルクセンブルク語
ml マラヤーラム語
mt マルタ語
mr マラーティー語
mk マケドニア語
mg マダガスカル語
mn モンゴル語
ms マレー語
my ビルマ語
ne ネパール語
new ネワール語
nl オランダ語
no ノルウェー語
or オリヤー語
om オロモ語
pa パンジャブ語
pl ポーランド語
pt ポルトガル語
ps プシュトン語
qu ケチュア語
ro ルーマニア語
ru ロシア語
sa サンスクリット語
si シンハラ語
sk スロバキア語
sl スロベニア語
sd シンディー
so ソマリ語
es スペイン語
sq アルバニア語
sr セルビア語
su スンダ語
sw スワヒリ語
sv スウェーデン語
ta タミル語
tt タタール語
te テルグ語
tg タジク語
tl タガログ語
th タイ語
tk トルクメン語
tr トルコ語
ug ウイグル語
uk ウクライナ語
ur ウルドゥー語
uz ウズベク語
vi ベトナム語
yi イディッシュ語
yo ヨルバ語
zh 簡体字中国語
zh-TW 繁体字中国語

次の API 演算機能のいずれかを使用して、1 つまたは複数のドキュメントの主要言語を検出できます。

DetectDominantLanguage オペレーションは DominantLanguage オブジェクトを返します。BatchDetectDominantLanguage の演算では、バッチ内のドキュメントごとに 1 つずつ、DominantLanguage オブジェクトのリストを返します。StartDominantLanguageDetectionJob の演算では、非同期ジョブが開始され、ジョブ内のドキュメントごとに 1 つずつ、DominantLanguage オブジェクトのリストが入ったファイルが作成されます。

次の例は、DetectDominantLanguage の演算からの応答です。

{ "Languages": [ { "LanguageCode": "en", "Score": 0.9793661236763 } ] }