Amazon Titan Image Generator G1 モデル - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Titan Image Generator G1 モデル

Amazon Titan Image Generator G1 はイメージ生成モデルです。v1 と v2 の 2 つのバージョンがあります。

Amazon Titan Image Generator v1 を使用すると、ユーザーはさまざまな方法でイメージを生成および編集できます。ユーザーは、自然言語プロンプトを入力するだけで、テキストベースの説明に一致するイメージを作成できます。さらに、マスクを必要とせずにテキストベースのプロンプトを適用したり、イメージマスクを使用してイメージの特定部分を編集したりするなど、既存のイメージをアップロードして編集できます。このモデルは、画像の境界を拡張するアウトペインティングと、欠落している領域を埋めるインペインティングもサポートしています。オプションのテキストプロンプトに基づいてイメージのバリエーションを生成できるだけでなく、ユーザーがリファレンスイメージを使用してスタイルを転送したり、複数のリファレンスからスタイルを組み合わせても、微調整を必要とせずにすぐにカスタマイズできるオプションも用意されています。

Titan Image Generator v2 は、Titan Image Generator v1 のすべての既存の機能をサポートし、いくつかの新機能を追加します。これにより、ユーザーはリファレンスイメージを活用してイメージ生成をガイドできます。ここで、テキストプロンプトに従っている間、出力イメージがリファレンスイメージのレイアウトと構成と一致します。また、自動背景削除機能も搭載されており、ユーザー入力なしで複数のオブジェクトを含むイメージから背景を削除できます。このモデルでは、生成されたイメージのカラーパレットを正確に制御できるため、ユーザーは追加の微調整を必要とせずにブランドのビジュアルアイデンティティを維持できます。さらに、被写体の整合性機能により、ユーザーはリファレンスイメージを使用してモデルを微調整して、生成されたイメージに選択した被写体 (ペット、靴、ハンドバッグなど) を保持できます。この包括的な機能スイートにより、ユーザーは創造的な可能性を解き放ち、想像力豊かなビジョンを実現できます。

Amazon Titan Image Generator G1 モデルプロンプトエンジニアリングガイドラインの詳細については、「Amazon Titan Image Generator プロンプトエンジニアリングのベストプラクティス」を参照してください。

AI の責任ある使用におけるベストプラクティスを継続的にサポートするために、Titan Foundation Models (FMs) は、データ内の有害なコンテンツを検出して削除し、ユーザー入力内の不適切なコンテンツを拒否し、不適切なコンテンツ (ヘイトスピーチ、冒涜、暴力など) を含むモデルの出力をフィルタリングするように構築されています。Titan Image Generator FM は、生成されたすべてのイメージに目に見えない透かしと C2PA メタデータを追加します。

Amazon Bedrock コンソールの透かし検出機能を使用するか、Amazon Bedrock 透かし検出 API (プレビュー) を呼び出して、イメージに Titan Image Generator の透かしが含まれているかどうかを確認できます。Content Credentials Verify などのサイトを使用して、イメージが Titan Image Generator によって生成されたかどうかを確認することもできます。

Amazon Titan Image Generator v1 の概要

  • モデル IDamazon.titan-image-generator-v1

  • 最大入力文字数 – 512 文字

  • 最大入力イメージサイズ – 5 MB (一部の特定の解像度のみがサポートされています)

  • イン/アウトペイントを使用した最大イメージサイズ – 1,408 x 1,408 px px

  • 画像バリエーションを使用する場合の最大画像サイズ – 4,096 x 4,096 ピクセル

  • 言語 – 英語

  • 出力タイプ – 画像

  • サポートされているイメージタイプ – JPEG、JPG、 PNG

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – 画像生成、画像編集、画像バリエーション

Amazon Titan Image Generator v2 の概要

  • モデル IDamazon.titan-image-generator-v2:0

  • 最大入力文字数 – 512 文字

  • 最大入力イメージサイズ – 5 MB (一部の特定の解像度のみがサポートされています)

  • イン/アウトペインティング、バックグラウンド削除、イメージコンディショニング、カラーパレットを使用した最大イメージサイズ – 1,408 x 1,408 px

  • 画像バリエーションを使用する場合の最大画像サイズ – 4,096 x 4,096 ピクセル

  • 言語 – 英語

  • 出力タイプ – 画像

  • サポートされているイメージタイプ – JPEG、JPG、 PNG

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – イメージ生成、イメージ編集、イメージバリエーション、背景削除、色ガイド付きコンテンツ

機能

  • Text-to-image (T2I) 生成 – テキストプロンプトを入力し、出力として新しいイメージを生成します。生成された画像には、テキストプロンプトで説明されている概念が取り込まれています。

  • T2I モデルのファインチューニング – 複数の画像をインポートして独自のスタイルやパーソナライゼーションを取り込み、核となる T2I モデルをファインチューニングします。ファインチューニングされたモデルでは、特定のユーザーのスタイルやパーソナライゼーションに合わせた画像が生成されます。

  • 画像編集オプション - インペイント、アウトペイント、バリエーションの生成、画像マスクなしの自動編集が含まれます。

  • インペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、マスク内の領域を再構成します。インペインティングを使用して、マスクされている要素を削除し、背景ピクセルに置き換えることができます。

  • アウトペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、領域をシームレスに拡張する新しいピクセルを生成します。正確なアウトペインティングを使用すると、画像を境界まで拡張するときにマスクされた画像のピクセルが維持されます。デフォルトのアウトペイントを使用すると、セグメンテーション設定に基づいてマスクされた画像のピクセルが画像の境界まで拡張されます。

  • イメージバリエーション – 1~5 個のイメージとオプションのプロンプトを入力として使用します。入力イメージ (複数可) の内容を保持する新しいイメージを生成しますが、そのスタイルと背景は異なります。

  • イメージコンディショニング – (V2 のみ) 入力リファレンスイメージを使用してイメージ生成をガイドします。モデルは、テキストプロンプトに従って、リファレンスイメージのレイアウトと構成と一致する出力イメージを生成します。

  • 被写体の整合性 – (V2 のみ) 被写体の整合性により、ユーザーはリファレンスイメージでモデルを微調整して、生成されたイメージに選択した被写体 (ペット、靴、ハンドバッグなど) を保持できます。

  • 色ガイド付きコンテンツ – (V2 のみ) プロンプトとともに 16 進色コードのリストを指定できます。1~10 個の 16 進コードを指定できます。によって返されるイメージ Titan Image Generator G1 V2 は、ユーザーが提供するカラーパレットを組み込みます。

  • バックグラウンドの削除 – (V2 のみ) 入力イメージ内の複数のオブジェクトを自動的に識別し、バックグラウンドを削除します。出力イメージの背景は透明です。

  • コンテンツの出典 – Content Credentials Verify などのサイトを使用して、イメージが Titan Image Generator によって生成されたかどうかを確認します。これは、メタデータが削除されていない限り、イメージが生成されたことを示します。

注記

微調整されたモデルを使用している場合、 または APIモデルのインペイント、アウトペイント、またはカラーパレット機能は使用できません。

パラメータ

Amazon Titan Image Generator G1 モデルの推論パラメータの詳細については、「Amazon Titan Image Generator G1 モデルの推論パラメータ」を参照してください。

ファインチューニング

Amazon Titan Image Generator G1 モデルの微調整の詳細については、次のページを参照してください。

Amazon Titan Image Generator G1 モデルの微調整と料金

このモデルは、次の式例を使用して、ジョブあたりの合計価格を計算します。

合計料金 = ステップ * バッチサイズ * イメージあたりの表示料金

最小値 (自動):

  • 最小ステップ (自動) - 500

  • 最小バッチサイズ - 8

  • デフォルトの学習レート - 0.00001

  • 表示されたイメージあたりの料金 - 0.005

ハイパーパラメータ設定の微調整

ステップ – モデルが各バッチに公開される回数。デフォルトのステップカウントは設定されていません。10~40,000 の数値、または文字列値「Auto」を選択する必要があります。

ステップ設定 - 自動 - Amazon Bedrock は、トレーニング情報に基づいて妥当な値を決定します。このオプションを選択すると、トレーニングコストよりもモデルのパフォーマンスに優先順位が付けられます。ステップの数は自動的に決定されます。この数は、通常、データセットに基づいて 1,000~8,000 です。ジョブコストは、モデルをデータに公開するために使用されるステップの数によって影響を受けます。ジョブコストの計算方法については、料金の詳細の料金例セクションを参照してください。(Auto が選択されているときにステップカウントがイメージの数にどのように関連しているかについては、上記の表の例を参照してください。)

ステップ設定 - カスタム - Bedrock がカスタムモデルをトレーニングデータに公開するステップの数を入力できます。この値は 10~40,000 です。ステップカウント値を低くすることで、モデルによって生成されたイメージあたりのコストを削減できます。

バッチサイズ – モデルパラメータが更新される前に処理されたサンプルの数。この値は 8~192 で、8 の倍数です。

学習率 – トレーニングデータの各バッチの後にモデルパラメータが更新される速度。これは 0 から 1 までの浮動小数点値です。学習率はデフォルトで 0.00001 に設定されています。

微調整手順の詳細については、「モデルカスタマイズジョブの送信」を参照してください。

出力

Amazon Titan Image Generator G1 モデルは、出力イメージのサイズと品質を使用して、イメージの料金を決定します。Amazon Titan Image Generator G1 モデルには、サイズに基づいて 2 つの料金セグメントがあります。1 つは 512*512 イメージ用、もう 1 つは 1024*1024 イメージ用です。料金は、画像サイズ (高さ x 幅) が 512 x 512 以下か 512 x 512 より大きいかによって決まります。

Amazon Bedrock の料金の詳細については、「Amazon Bedrock の料金」を参照してください。

ウォーターマーク検出

注記

Amazon Bedrock コンソールの透かし検出と APIはパブリックプレビューリリースで利用可能で、Titan Image Generator G1 から生成された透かしのみを検出します。この機能は現在、 us-west-2 および us-east-1リージョンでのみ使用できます。透かし検出は、Titan Image Generator G1 によって生成された透かしの高精度検出です。元のイメージから変更されたイメージでは、検出結果の精度が低下する可能性があります。

このモデルは、生成されたすべてのイメージに目に見えない透かしを追加して、誤った情報の拡散を減らし、著作権保護を支援し、コンテンツの使用を追跡します。透かし検出は、イメージがこの透かしの存在をチェックする Titan Image Generator G1 モデルによって生成されたかどうかを確認するのに役立ちます。

注記

Watermark Detection APIはプレビュー中であり、変更される可能性があります。を使用する仮想環境を作成することをお勧めしますSDK。ウォーターマーク検出APIsは最新の では使用できないためSDKs、ウォーターマーク検出 を使用してバージョンをインストールする前に、仮想環境SDKから最新バージョンの をアンインストールすることをお勧めしますAPIs。

イメージをアップロードして、Titan Image Generator G1 の透かしがイメージに存在するかどうかを検出できます。コンソールを使用して、以下の手順に従って、このモデルからウォーターマークを検出します。

Titan Image Generator G1 で透かしを検出するには:
  1. Amazon Bedrock コンソール」をクリックして、 Amazon Bedrock コンソールを開きます。

  2. Amazon Bedrock のナビゲーションペインから概要を選択します。ビルドとテストタブを選択します。

  3. Safeguards セクションで、ウォーターマーク検出 に移動し、ウォーターマーク検出の表示 を選択します。

  4. イメージのアップロードを選択し、 JPGまたは PNG形式のファイルを見つけます。最大ファイルサイズは 5 MB です。

  5. アップロードすると、名前、ファイルサイズ、最終変更日とともに画像のサムネイルが表示されます。X を選択して、アップロードセクションからイメージを削除または置き換えます。

  6. 分析を選択して透かし検出分析を開始します。

  7. イメージは結果 でプレビューされ、イメージの下にウォーターマークが検出され、イメージ全体にバナーが検出されたウォーターマークが検出されたかどうかを示します。透かしが検出されない場合、イメージの下のテキストには、透かしがNOT検出されたと表示されます。

  8. 次のイメージをロードするには、Upload セクションのイメージのサムネイルで X を選択し、分析する新しいイメージを選択します。

プロンプトエンジニアリングガイドライン

マスクプロンプト – このアルゴリズムはピクセルをコンセプトに分類します。マスクする画像の領域をマスクプロンプトの解釈に基づいて分類するためのテキストプロンプトを、ユーザーが入力できます。プロンプトオプションを使うと、より複雑なプロンプトを解釈して、マスクをセグメンテーションアルゴリズムにエンコードできます。

画像マスク – 画像マスクを使用してマスク値を設定することもできます。画像マスクをマスクのプロンプト入力と組み合わせると、正解率が向上します。画像マスクファイルは、以下のパラメータに準拠している必要があります。

  • マスク画像の値は 0 (黒) または 255 (白) でなければなりません。値が 0 の画像マスク領域は、ユーザープロンプトによる画像または入力画像で再生成されます。

  • maskImage フィールドは Base64 でエンコードされた画像文字列である必要があります。

  • マスク画像は、入力画像と同じ寸法 (高さと幅が同じ) である必要があります。

  • 入力イメージとマスクイメージに使用できるのは、 PNG または JPG ファイルのみです。

  • マスク画像には白黒のピクセル値のみを使用する必要があります。

  • マスクイメージはRGBチャネルのみを使用できます (アルファチャネルはサポートされていません)。

Amazon Titan Image Generator プロンプトエンジニアリングの詳細については、「Amazon Titan Image Generator G1 モデルプロンプトエンジニアリングのベストプラクティス」を参照してください。

一般的なプロンプトエンジニアリングガイドラインについては、「プロンプトエンジニアリングガイドライン」を参照してください。