Amazon Titan Text Embeddings モデル - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Titan Text Embeddings モデル

Amazon Titan Amazon を含むテキストモデルを埋め込む Titan Text Embeddings v2 および Titan Text Embeddings G1 モデル。

テキスト埋め込みは、ドキュメント、段落、文などの非構造化テキストの意味があるベクトル表現を表します。テキストの本文を入力すると、出力は (1 x n) のベクトルになります。埋め込みベクトルは、さまざまなアプリケーションで使用できます。

Amazon Titan Text Embedding v2 モデル (amazon.titan-embed-text-v2:0) は、最大 8,192 個のトークンを取り込み、1,024 次元のベクトルを出力できます。このモデルは 100 以上の言語で動作します。このモデルはテキスト取得タスクに最適化されていますが、セマンティック類似性やクラスタリングなどの追加のタスクを実行することもできます。Amazon Titan Embeddings テキスト v2 は長いドキュメントもサポートしていますが、取得タスクでは、ドキュメントを段落やセクションなどの論理セグメント にセグメント化することをお勧めします。

Amazon Titan Embeddings モデルは、ドキュメント、段落、文を意味的に表現します。Amazon Titan Text Embeddings はテキスト本文を入力として受け取り、n 次元ベクトルを生成します。Amazon Titan Text Embeddings は、検索を高速化するためにレイテンシーが最適化されたエンドポイント呼び出し (取得ステップ中に推奨) を介して提供され、インデックス作成を高速化するためにスループットが最適化されたバッチジョブも提供されます。

Amazon Titan Embedding Text v2 モデルは、次の言語をサポートしています。 英語、 ドイツ語、 フランス語、 スペイン語、 日本語、 中国語、 ヒンディー語、 アラビア語、 イタリア語、 ポルトガル語、 スウェーデン語、 韓国語、 ヘブライ語、 チェコ語、 トルコ語、 Tagalog、 ロシア語、 オランダ語、 ポーランド語、 タミル語、 Marathi、 マラヤーラム語、 テルグ語、 カンナダ、 ベトナム語、 インドネシア語、 ペルシャ語、 ハンガリー語、 現代ギリシャ語、 ルーマニア語、 デンマーク語、 タイ語、 フィンランド語、 スロバキア、 ウクライナ語、 ノルウェー語、 ブルガリア語、 カタロニア語、 セルビア語、 クロアチア語、 リトアニア語、 スロベニア語、 エストニア語、 ラテン語、 ベンガル語、 ラトビア語、 マレー語、 ボスニア語、 アルバニア語、 アゼルバイジャン語、 ガリシア語、 アイスランド語、 ジョージア語、 マケドニア語、 バスク語、 アルメニア語、 ネパリ語、 ウルドゥー語、 カザフ語、 モンゴル語、 ベラルーシ語、 ウズベク語、 クメール語、 ノルウェー語 Nynorsk、 グジャラーティ、 ビルマ語、 ウェールズ語、 エスペラント語、 シンハラ、 タタール語、 スワヒリ語、 アフリカーンズ アイルランド語、 Panjabi、 クルド語、 キルギス語、 タジク語、 Oriya、 Lao、 Faroese マルタ語、 ソマリア語、 ルクセンブルク語、 アムハラ語、 オクシタン、 Javanese ハウサ、 Pushto、 サンスクリット語、 西フリシア語、 Malagasy、 アッサム語、 Bashkir、 Breton、 Waray (フィリピン)、 トルクメン語、 コルシカン語、 ディベヒ、 Cebuano、 Kinyarwanda ハイチ語、 イディッシュ語、 Sindhi、 Zulu、 スコットランドゲール語、 チベタン語、 ウイグル語、 マオリ語、 ロマン語、 Xhosa、 スンダン語、 ヨルバ。

注記

Amazon Titan Text Embeddings v2 モデルと Titan Text Embeddings v1 モデルは、 maxTokenCountや などの推論パラメータをサポートしていませんtopP

Amazon Titan Text Embeddings V2 モデル

  • モデル IDamazon.titan-embed-text-v2:0

  • 最大入力テキストトークン – 8,192

  • 言語 – 英語 (プレビューでは 100 以上の言語)

  • 入力画像の最大サイズ – 5 MB

  • 出力ベクトルサイズ – 1,024 (デフォルト)、384、256

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – RAG、ドキュメント検索、再ランク付け、分類など。

注記

Titan Text Embeddings V2 は、最大 8,192 トークンを含む空でない文字列を入力として受け取ります。英語の文字とトークンの比率は、トークンあたり 4.7 文字です。Titan Text Embeddings V1 と Titan Text Embeddings V2 は最大 8,192 個のトークンに対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

テキストまたはイメージ埋め込みモデルを使用するには、 amazon.titan-embed-text-v1または を amazon.titan-embed-image-v1 として使用model Idして Invoke ModelAPIオペレーションを使用し、レスポンスで埋め込みオブジェクトを取得します。

Jupyter Notebook の例を参照するには:

  1. https://console.aws.amazon.com/bedrock/自宅の Amazon Bedrock コンソールにサインインします。

  2. 左側のメニューから [ベースモデル] を選択します。

  3. 下にスクロールして Amazon を選択します。Titan Embeddings G1 - Text モデル

  4. Amazon で Titan Embeddings G1 - Text tab (選択したモデルに応じて)、サンプルノートブックを表示 を選択して、埋め込みのサンプルノートブックを表示します。

マルチモーダルトレーニングのためのデータセットの準備について詳しくは、「データセットを準備する」を参照してください。