Amazon Titan Multimodal Embeddings G1モデル

Amazon Titan Foundation Models は大規模なデータセットで事前トレーニングされているため、強力で汎用的なモデルになります。そのまま使用するか、大量のデータに注釈を付けずに、特定のタスクの独自のデータでモデルを微調整してカスタマイズします。

Titan モデルには、埋め込み、テキスト生成、イメージ生成の 3 種類があります。

2 つのTitan Multimodal Embeddings G1モデルがあります。Titan Multimodal Embeddings G1 モデルは、テキスト入力 (単語、フレーズ、または場合によっては大量のテキスト) を、テキストの意味的意味を含む数値表現 (埋め込みと呼ばれる) に変換します。このモデルはテキストを生成しませんが、パーソナライゼーションや検索などのアプリケーションに役立ちます。埋め込みを比較することで、モデルは単語マッチングよりも関連性が高くコンテキストに応じたレスポンスを生成します。マルチモーダル埋め込み G1 モデルは、テキスト、類似度のためのイメージ、またはテキストとイメージの組み合わせによるイメージの検索などのユースケースに使用されます。入力イメージまたはテキストを、同じセマンティック空間内のイメージとテキストの両方の意味論的意味を含む埋め込みに変換します。

Titan Text モデルは、要約、テキスト生成、分類、オープンエンド QnA 、情報抽出などのタスク用の生成 LLMs です。 QnA また、さまざまなプログラミング言語や、テーブル、JSON、.csv ファイルなどのリッチテキスト形式でトレーニングされます。

Amazon Titan マルチモーダル埋め込みモデル G1 - テキストモデル

モデル ID – amazon.titan-embed-image-v1
最大入力テキストトークン – 8,192
言語 – 英語 (プレビューでは 25 以上の言語）
入力画像の最大サイズ – 5 MB
出力ベクトルサイズ – 1,024 (デフォルト)、384、256
推論タイプ – オンデマンド、プロビジョンドスループット
サポートされているユースケース – RAG、ドキュメント検索、再ランク付け、分類など。

Titan Text Embeddings V1 は、最大 8,192 個のトークンを持つ空でない文字列を入力として受け取り、1,024 次元の埋め込みを返します。英語の文字とトークンの比率は 4.6 文字/トークンです。RAG のユースケースに関する注意点: Titan Text Embeddings V2 は最大 8,192 個のトークンに対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

埋め込みの長さ

埋め込みの長さのカスタム設定は任意です。埋め込みのデフォルトの長さは 1,024 文字で、ほとんどのユースケースで使うことができます。埋め込みの長さは 256 文字、384 文字、または 1,024 文字に設定できます。埋め込みサイズを大きくすると、より詳細なレスポンスが得られますが、処理時間も長くなります。埋め込みの長さを短くすると詳細度は低くなりますが、応答時間は短くなります。



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

ファインチューニング

Amazon Titan Multimodal Embeddings G1の微調整への入力は、画像とテキストのペアです。
画像フォーマット: PNG、JPEG
入力画像サイズの上限: 5 MB
画像の寸法: 最小: 128 ピクセル、最大: 4,096 ピクセル
キャプション内のトークンの最大数: 128
トレーニングデータセットのサイズ範囲: 1,000～500,000
検証データセットのサイズ範囲: 8～50,000
キャプションの長さ (文字数): 0～2,560
画像あたりの最大合計ピクセル数: 2,048*2,048*3
アスペクト比 (幅/高さ): 最小: 0.25、最大: 4

データセットの準備

トレーニングデータセットに対して、複数の JSON 行を含む .jsonl ファイルを作成します。JSON の各行には、Sagemaker 拡張マニフェスト形式と似た image-ref 属性と caption 属性の両方が含まれています。検証データセットが必要です。自動キャプションは現在サポートされていません。



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

トレーニングデータセットと検証データセットの両方に対して、複数の JSON 行を含む .jsonl ファイルを作成することになります。

Amazon S3 パスは、Amazon Bedrock サービスロールに IAM ポリシーをアタッチすることで Amazon Bedrock がデータにアクセスできるようにアクセス許可を付与したフォルダ内にある必要があります。トレーニングデータの IAM ポリシーの付与について詳しくは、「カスタムジョブにトレーニングデータへのアクセスを付与する」を参照してください。

ハイパーパラメータ

これらの値は Multimodal Embeddings モデルのハイパーパラメータに合わせて調整できます。デフォルト値は、ほとんどのユースケースで十分に機能します。

学習率 - (最小/最大学習率) – デフォルト: 5.00E-05、最小: 5.00E-08、最大: 1
バッチサイズ - 有効バッチサイズ - デフォルト: 576、最小: 256、最大: 9,216
最大エポック数 – デフォルト:「自動」、最小: 1、最大: 100

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Amazon Titan Text Embeddings

Amazon Titan Image Generator G1