翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Titan Text Embeddings モデル
Amazon Titan Amazon を含む埋め込みモデル Titan Text Embeddings v2 および Titan Text Embeddings G1 モデル。
テキスト埋め込みは、ドキュメント、段落、文などの非構造化テキストの意味があるベクトル表現を表します。テキストの本文を入力すると、出力は (1 x n) のベクトルになります。埋め込みベクトルは、さまざまなアプリケーションで使用できます。
Amazon Titan Text Embedding v2 モデル (amazon.titan-embed-text-v2:0
) では、最大 8,192 のトークンを取り込むことができ、1,024 次元のベクトルを出力します。また、このモデルは 100 以上の言語で機能します。このモデルはテキスト取得タスク用に最適化されていますが、セマンティック類似度やクラスタリングなどの追加タスクにも最適化できます。
Amazon Titan Embeddings モデルは、ドキュメント、段落、文の意味に沿ったセマンティック表現を生成します。Amazon Titan Text Embeddings はテキスト本文を入力として受け取り、(1 x n) ベクトルを生成します。Amazon Titan Text Embeddings は、より高速な検索 (取得ステップで推奨) のためにレイテンシーを最適化したエンドポイント呼び出しと、より高速なインデックス作成のためにスループットを最適化したバッチジョブによって提供されます。Amazon Titan Text Embeddings v2 は長いドキュメントをサポートしていますが、取得タスクでは、ドキュメントを段落やセクションなどの論理セグメントに分割することをお勧めします。
Amazon Titan 埋め込みテキスト v2 モデルは、次の言語に対応しています: 英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ヒンディー語、アラビア語、イタリア語、ポルトガル語、スウェーデン語、韓国語、ヘブライ語、チェコ語、トルコ語、タガログ語、ロシア語、オランダ語、ポーランド語、 タミル語、マラーティー語、マラヤーラム語、テルグ語、カンナダ語、ベトナム語、インドネシア語、ペルシャ語、ハンガリー語、現代ギリシャ語、ルーマニア語、デンマーク語、タイ語、フィンランド語、スロバキア語、ウクライナ語、ノルウェー語、ブルガリア語、カタルーニャ語、セルビア語、クロアチア語、リトアニア語、スロベニア語、エストニア語、ラテン語、ベンガル語、ラトビア語、マレーシア語、ボスニア語、アルバニア語、アゼルバイジャン語、ガリシア語、アイスランド語、ジョージア語、マケドニア語、バスク語、アルメニア語、ネパール語、ウルドゥー語、カザフスタン語、モンゴル語、ベラルーシ語、ウズベク語、クメール語、ノルウェー語 (ニーノシュク)、グジャラート語、ビルマ語、ウェールズ語、エスペラント語、シンハラ語、タタール語、スワヒリ語、アフリカーンス語、アイルランド語、パンジャーブ語、クルド語、キルギス語、タジク語、オリヤー語、ラーオ語、フェロー語、マルタ語、ソマリ語、ルクセンブルク語、アムハラ語、オック語、ジャバ語、ハウサ語、パシュトー語、サンスクリット語、西フリジア語、マダガスカル語、アッサム語、バシキール語、ブルトン語、ワライ語 (フィリピン)、トルクメン語、コルシカ語、ディベヒ語、セブアノ語、ルワンダ語、ハイチ語、イディッシュ語、シンド語、ズールー語、スコットランド・ゲール語、チベット語、ウイグル語、マオリ語、ロマンシュ語、コサ語、スンダ語、ヨルバ語。
注記
Amazon Titan Text Embeddings v2 モデルと Titan Text Embeddings v1 モデルは、 maxTokenCount
や などの推論パラメータをサポートしていませんtopP
。
Amazon Titan Text Embeddings V2 モデル
モデル ID –
amazon.titan-embed-text-v2:0
入力テキストトークンの最大数 – 8,192
言語 – 英語 (プレビューで 100 以上の言語)
出力ベクトルサイズ – 1,024 (デフォルト)、384、256
推論タイプ – オンデマンド、プロビジョンドスループット
サポートされているユースケース – RAG、ドキュメント検索、再ランク付け、分類など。
注記
Titan Text Embeddings V2 は、最大 8,192 トークンを持つ空でない文字列を入力とします。英語の文字とトークンの比率は、トークンあたり平均 4.7 文字です。Titan Text Embeddings V1 と Titan Text Embeddings V2 は最大 8,192 個のトークンまで対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。
テキストまたはイメージ埋め込みモデルを使用するには、 amazon.titan-embed-text-v2
または を amazon.titan-embed-image-v2
として使用model Id
して Invoke Model
APIオペレーションを使用し、レスポンスで埋め込みオブジェクトを取得します。
Jupyter Notebook の例を参照するには:
-
https://console.aws.amazon.com/bedrock/ホームで Amazon Bedrock コンソールにサインインします。
-
下にスクロールして Amazon を選択します。Titan Text Embeddings V2 モデル
-
Amazon の場合 Titan Text Embeddings V2 tab (選択したモデルに応じて)、「サンプルノートブックを表示」を選択して、埋め込み用のサンプルノートブックを表示します。
マルチモーダルトレーニングのためのデータセットの準備について詳しくは、「データセットを準備する」を参照してください。