Amazon Titan Multimodal Embeddings G1モデル - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Titan Multimodal Embeddings G1モデル

Amazon Titan Foundation Models は大規模なデータセットで事前トレーニングされているため、強力で汎用的なモデルになります。そのまま使用するか、大量のデータに注釈を付けずに、特定のタスクの独自のデータでモデルを微調整してカスタマイズします。

Titan モデルには、埋め込み、テキスト生成、イメージ生成の 3 種類があります。

2 つのTitan Multimodal Embeddings G1モデルがあります。Titan Multimodal Embeddings G1 モデルは、テキスト入力 (単語、フレーズ、または場合によっては大量のテキスト) を、テキストの意味的意味を含む数値表現 (埋め込みと呼ばれる) に変換します。このモデルはテキストを生成しませんが、パーソナライゼーションや検索などのアプリケーションに役立ちます。埋め込みを比較することで、モデルは単語マッチングよりも関連性が高くコンテキストに応じたレスポンスを生成します。マルチモーダル埋め込み G1 モデルは、テキスト、類似度のためのイメージ、またはテキストとイメージの組み合わせによるイメージの検索などのユースケースに使用されます。入力イメージまたはテキストを、同じセマンティック空間内のイメージとテキストの両方の意味論的意味を含む埋め込みに変換します。

Titan Text モデルは、要約、テキスト生成、分類、オープンエンド QnA 、情報抽出などのタスク用の生成 LLMs です。 QnA また、さまざまなプログラミング言語や、テーブル、JSON、.csv ファイルなどのリッチテキスト形式でトレーニングされます。

Amazon Titan マルチモーダル埋め込みモデル G1 - テキストモデル

  • モデル IDamazon.titan-embed-image-v1

  • 最大入力テキストトークン – 8,192

  • 言語 – 英語 (プレビューでは 25 以上の言語)

  • 入力画像の最大サイズ – 5 MB

  • 出力ベクトルサイズ – 1,024 (デフォルト)、384、256

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – RAG、ドキュメント検索、再ランク付け、分類など。

Titan Text Embeddings V1 は、最大 8,192 個のトークンを持つ空でない文字列を入力として受け取り、1,024 次元の埋め込みを返します。英語の文字とトークンの比率は 4.6 文字/トークンです。RAG のユースケースに関する注意点: Titan Text Embeddings V2 は最大 8,192 個のトークンに対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

埋め込みの長さ

埋め込みの長さのカスタム設定は任意です。埋め込みのデフォルトの長さは 1,024 文字で、ほとんどのユースケースで使うことができます。埋め込みの長さは 256 文字、384 文字、または 1,024 文字に設定できます。埋め込みサイズを大きくすると、より詳細なレスポンスが得られますが、処理時間も長くなります。埋め込みの長さを短くすると詳細度は低くなりますが、応答時間は短くなります。

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

ファインチューニング

  • Amazon Titan Multimodal Embeddings G1の微調整への入力は、画像とテキストのペアです。

  • 画像フォーマット: PNG、JPEG

  • 入力画像サイズの上限: 5 MB

  • 画像の寸法: 最小: 128 ピクセル、最大: 4,096 ピクセル

  • キャプション内のトークンの最大数: 128

  • トレーニングデータセットのサイズ範囲: 1,000~500,000

  • 検証データセットのサイズ範囲: 8~50,000

  • キャプションの長さ (文字数): 0~2,560

  • 画像あたりの最大合計ピクセル数: 2,048*2,048*3

  • アスペクト比 (幅/高さ): 最小: 0.25、最大: 4

データセットの準備

トレーニングデータセットに対して、複数の JSON 行を含む .jsonl ファイルを作成します。JSON の各行には、Sagemaker 拡張マニフェスト形式と似た image-ref 属性と caption 属性の両方が含まれています。検証データセットが必要です。自動キャプションは現在サポートされていません。

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

トレーニングデータセットと検証データセットの両方に対して、複数の JSON 行を含む .jsonl ファイルを作成することになります。

Amazon S3 パスは、Amazon Bedrock サービスロールに IAM ポリシーをアタッチすることで Amazon Bedrock がデータにアクセスできるようにアクセス許可を付与したフォルダ内にある必要があります。トレーニングデータの IAM ポリシーの付与について詳しくは、「カスタムジョブにトレーニングデータへのアクセスを付与する」を参照してください。

ハイパーパラメータ

これらの値は Multimodal Embeddings モデルのハイパーパラメータに合わせて調整できます。デフォルト値は、ほとんどのユースケースで十分に機能します。

  • 学習率 - (最小/最大学習率) – デフォルト: 5.00E-05、最小: 5.00E-08、最大: 1

  • バッチサイズ - 有効バッチサイズ - デフォルト: 576、最小: 256、最大: 9,216

  • 最大エポック数 – デフォルト:「自動」、最小: 1、最大: 100