Amazon Titan Text Embeddings モデル

Amazon Titan Embeddings モデルには、Amazon Titan Text Embeddings V2 モデルと Titan Text Embeddings G1 モデルが含まれます。

テキスト埋め込みは、ドキュメント、段落、文などの非構造化テキストの意味があるベクトル表現を表します。テキストの本文を入力すると、出力は (1 x n) のベクトルになります。埋め込みベクトルは、さまざまなアプリケーションで使用できます。

Amazon Titan Text Embedding v2 モデル (amazon.titan-embed-text-v2:0) は、最大 8,192 個のトークンまたは 50,000 文字を取り込み、1,024 次元のベクトルを出力できます。このモデルはテキスト取得タスク用に最適化されていますが、セマンティック類似性やクラスタリングなどの追加のタスクにも使用できます。

Amazon Titan Embeddings モデルは、ドキュメント、段落、文の意味に沿ったセマンティック表現を生成します。Amazon Titan Text Embeddings は、テキストの本文を入力として受け取り、 (1 x n) ベクトルを生成します。Amazon Titan Text Embeddings は、より高速な検索 (取得ステップで推奨) のためにレイテンシーを最適化したエンドポイント呼び出しと、より高速なインデックス作成のためにスループットを最適化したバッチジョブによって提供されます。Amazon Titan Text Embeddings v2 は長いドキュメントをサポートしていますが、取得タスクでは、ドキュメントを段落やセクションなどの論理セグメントにセグメント化することをお勧めします。

注記

Amazon Titan Text Embeddings v2 モデルと Titan Text Embeddings v1 モデルは、 maxTokenCountやなどの推論パラメータをサポートしていませんtopP。

Amazon Titan Text Embeddings V2 モデル

モデル ID – amazon.titan-embed-text-v2:0
入力テキストトークンの最大数 – 8,192
最大入力テキスト文字数 – 50,000
言語 – 英語 (プレビューで 100 以上の言語)
出力ベクトルサイズ – 1,024 (デフォルト）、512、256
推論タイプ – オンデマンド、プロビジョンドスループット
サポートされているユースケース – RAG、ドキュメント検索、再ランキング、分類など。

注記

Titan Text Embeddings V2 は、最大 8,192 トークンまたは 50,000 文字の空でない文字列を入力として受け取ります。英語の文字とトークンの比率は、トークンあたり平均 4.7 文字です。Titan Text Embeddings V1 と Titan Text Embeddings V2 は最大 8,192 個のトークンまで対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

Amazon Titan Embedding Text v2 モデルは英語向けに最適化されており、次の言語が多言語サポートされています。クロス言語クエリ (ナレッジベースを韓国語で提供してドイツ語でクエリするなど) は、最適ではない結果を返します。

アフリカーンス語
アルバニア語
アムハラ語
アラビア語
アルメニア語
アッサム語
アゼルバイジャン語
バシキール語
バスク語
ベラルーシ語
ベンガル語
ボスニア語
ブルトン語
ブルガリア語
ビルマ語
カタロニア語
セブアノ語
中国語
コルシカ語
クロアチア語
チェコ語
デンマーク語
ディベヒ
オランダ語
英語
エスペラント語
エストニア語
フェロー語
フィンランド語
フランス語
ガリシア語
グルジア語
ドイツ語
グジャラート語
ハイチ語
ハウサ語
ヘブライ語
ヒンディー語
ハンガリー語
アイスランド語
インドネシア語
アイルランド語
イタリア語
日本語
ジャワ語
カンナダ語
カザフ語
クメール語
キニヤルワンダ語
キルギス語
韓国語
クルド語
ラオス語
ラテン語
ラトビア語
リトアニア語
ルクセンブルク語
マケドニア語
マダガスカル語
マレー語
マラヤーラム語
マルタ語
マオリ語
マラーティー語
現代ギリシャ語
モンゴル語
ネパール語
ノルウェー語
ノルウェー語 Nynorsk
オクシタン
オリヤー語
パンジャビ
ペルシャ語
ポーランド語
ポルトガル語
プシュトン語
ルーマニア語
ロマンシュ語
ロシア語
サンスクリット語
スコティッシュゲール語
セルビア語
シンディー
シンハラ語
スロバキア語
スロベニア語
ソマリ語
スペイン語
スンダ語
スワヒリ語
スウェーデン語
タガログ語
タジク語
タミル語
タタール語
テルグ語
タイ語
チベタン語
トルコ語
トルクメン語
ウイグル語
ウクライナ語
ウルドゥー語
ウズベク語
ベトナム語
ウェイ
ウェールズ語
西部フリシア語
Xhosa
イディッシュ語
ヨルバ語
ズールー語

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Titan Text

Amazon Titan Multimodal Embeddings G1