Amazon Titan Image Generator G1モデル - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Titan Image Generator G1モデル

Amazon は画像生成モデルTitan Image Generator G1です。テキストから画像を生成することや、ユーザーが既存の画像をアップロードして編集することが可能です。このモデルは、自然言語テキストから画像を生成でき、既存または生成された画像のバリエーションを編集または生成するためにも使用できます。ユーザーは、テキストプロンプトを使って (マスクなしで) 画像を編集したり、画像マスクを使って画像の一部を編集したりできます。アウトペインティングで画像の境界を拡張し、インペインティングで画像を塗りつぶすことができます。また、オプションのテキストプロンプトに基づいて画像のバリエーションを生成することもできます。

Amazon Titan Image Generator G1モデルは、作成者が 1 ~ 5 個のリファレンスイメージをインポートし、特定のサブジェクトイメージを新しいコンテキストで生成できるようにする即時カスタマイズをサポートしています。このモデルは、イメージの主要な特性を保持し、プロンプトエンジニアリングなしでイメージベースのスタイル転送を実行し、複数のリファレンスイメージからスタイルミキシングを生成し、すべてを微調整しません。

AI の責任ある使用におけるベストプラクティスを継続的にサポートするために、Titan Foundation Models は、データ内の有害なコンテンツを検出して削除し、ユーザー入力内の不適切なコンテンツを拒否し、不適切なコンテンツ (ヘイトスピーチ、冒涜的、暴力など) を含むモデルの出力をフィルタリングするように構築されています。Titan Image Generator FM は、生成されたすべてのイメージに目に見えない透かしを追加します。

Amazon Bedrock コンソールの透かし検出機能 (プレビュー) を使用するか、Amazon Bedrock 透かし検出 API (プレビュー) を呼び出して、イメージに Titan Image Generator の透かしが含まれているかどうかを確認できます。

Amazon Titan Image Generator G1プロンプトエンジニアリングガイドラインの詳細については、「Amazon Titan Image Generator G1 プロンプトエンジニアリングのベストプラクティス」を参照してください。

  • モデル IDamazon.titan-image-generator-v1

  • 最大入力文字数 – 512 文字

  • 最大入力イメージサイズ – 5 MB (一部の特定の解像度のみがサポートされています)

  • イン/アウトペインティングを使用した最大イメージサイズ – 1,408 x 1,408 ピクセル

  • 画像バリエーションを使用する場合の最大画像サイズ – 4,096 x 4,096 ピクセル

  • 言語 – 英語

  • 出力タイプ – 画像

  • サポートされている画像タイプ – JPEG、JPG、PNG

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – 画像生成、画像編集、画像バリエーション

機能

  • T ext-to-image (T2I) 生成 – テキストプロンプトを入力し、出力として新しいイメージを生成します。生成された画像には、テキストプロンプトで説明されている概念が取り込まれています。

  • T2I モデルのファインチューニング – 複数の画像をインポートして独自のスタイルやパーソナライゼーションを取り込み、核となる T2I モデルをファインチューニングします。ファインチューニングされたモデルでは、特定のユーザーのスタイルやパーソナライゼーションに合わせた画像が生成されます。

  • 画像編集オプション – インペインティング、アウトペインティング、バリエーションの生成、画像マスクなしの自動編集などがあります。

  • インペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、マスク内の領域を再構成します。インペインティングを使用して、マスクされている要素を削除し、背景ピクセルに置き換えることができます。

  • アウトペインティング – 画像とセグメンテーションマスクを入力 (ユーザーからの入力またはモデルによって推定された入力) として使用し、領域をシームレスに拡張する新しいピクセルを生成します。正確なアウトペインティングを使用すると、画像を境界まで拡張するときにマスクされた画像のピクセルが維持されます。デフォルトのアウトペイントを使用すると、セグメンテーション設定に基づいてマスクされた画像のピクセルが画像の境界まで拡張されます。

  • イメージバリエーション – 1~5 個のイメージとオプションのプロンプトを入力として使用します。入力イメージのコンテンツは保持される新しいイメージを生成しますが、スタイルと背景は変化します (複数可)。

注記

微調整されたモデルを使用している場合、API またはモデルのインペインティングまたはアウトペインティング機能は使用できません。

パラメータ

Amazon Titan Image Generator G1推論パラメータの詳細については、「Amazon Titan Image Generator G1 推論パラメータ」を参照してください。

ファインチューニング

Amazon Titan Image Generator G1モデルの微調整の詳細については、以下のページを参照してください。

Titan Image Generator G1 微調整と料金

このモデルは、次の式例を使用してジョブあたりの合計価格を計算します。

合計料金 = ステップ * バッチサイズ * 表示されているイメージあたりの料金

最小値 (自動):

  • 最小ステップ (自動) - 500

  • 最小バッチサイズ - 8

  • デフォルトの学習レート - 0.00001

  • 表示されたイメージあたりの料金 - 0.005

ハイパーパラメータ設定の微調整

ステップ – モデルが各バッチに公開される回数。デフォルトのステップカウントは設定されていません。10~40,000 の数値、または文字列値「自動」を選択する必要があります。

ステップ設定 - 自動 – Amazon Bedrock は、トレーニング情報に基づいて妥当な値を決定します。トレーニングコストよりもモデルのパフォーマンスを優先するには、このオプションを選択します。ステップの数は自動的に決定されます。この数は、通常、データセットに基づいて 1,000~8,000 です。ジョブコストは、モデルをデータに公開するために使用されるステップの数によって影響を受けます。ジョブのコストの計算方法については、料金詳細の料金例セクションを参照してください。(Auto が選択されているときのステップカウントとイメージの数の関係については、上記の例を参照してください。)

ステップ設定 - カスタム - Bedrock にカスタムモデルをトレーニングデータに公開させるステップ数を入力できます。この値は 10~40,000 です。ステップカウント値を小さくすることで、モデルによって生成されるイメージあたりのコストを削減できます。

バッチサイズ – モデルパラメータが更新される前に処理されたサンプルの数。この値は 8~192 で、8 の倍数です。

学習レート – トレーニングデータの各バッチ後にモデルパラメータが更新されるレート。これは 0~1 の浮動小数点値です。学習レートはデフォルトで 0.00001 に設定されています。

微調整手順の詳細については、「モデルカスタマイズジョブの送信」を参照してください。

出力

Titan Image Generator G1 は、出力イメージのサイズと品質を使用してイメージの料金を決定します。 Titan Image Generator G1には、サイズに基づいて 2 つの料金セグメントがあります。1 つは 512 x 512 イメージ用、もう 1 つは 1024 x 1024 イメージ用です。料金は、画像サイズ (高さ x 幅) が 512 x 512 以下か 512 x 512 より大きいかによって決まります。

Amazon Bedrock の料金の詳細については、「Amazon Bedrock の料金」を参照してください。

透かし検出

注記

Amazon Bedrock コンソールと API の透かし検出は、パブリックプレビューリリースで利用でき、 から生成された透かしのみを検出しますTitan Image Generator G1。この機能は現在、 us-west-2および us-east-1リージョンでのみ使用できます。透かし検出は、 によって生成された透かしの高精度の検出ですTitan Image Generator G1。元のイメージから変更されたイメージでは、検出結果の精度が低下する可能性があります。

このモデルは、生成されたすべてのイメージに目に見えない透かしを追加して、誤った情報の拡散を減らし、著作権保護を支援し、コンテンツの使用状況を追跡します。透かし検出は、イメージがTitan Image Generator G1モデルによって生成されたかどうかの確認に役立ちます。モデルはこの透かしの存在をチェックします。

注記

ウォーターマーク検出 API はプレビュー版であり、変更される可能性があります。SDK を使用する仮想環境を作成することをお勧めします。ウォーターマーク検出 APIs は最新の SDKsAPIsを仮想環境からアンインストールすることをお勧めします。

イメージをアップロードして、 からの透かしTitan Image Generator G1がイメージに存在するかどうかを検出できます。コンソールを使用して、以下の手順に従ってこのモデルから透かしを検出します。

で透かしを検出するにはTitan Image Generator G1:
  1. Amazon Bedrock コンソール」をクリックして、 Amazon Bedrock コンソールを開きます。

  2. Amazon Bedrock のナビゲーションペインから概要を選択します。ビルドとテストタブを選択します。

  3. 「セーフガード」セクションで、ウォーターマーク検出に移動し、ウォーターマーク検出を表示」を選択します。

  4. イメージのアップロードを選択し、JPG または PNG 形式のファイルを見つけます。許可される最大ファイルサイズは 5 MB です。

  5. アップロードされると、名前、ファイルサイズ、最終更新日とともに画像のサムネイルが表示されます。X を選択して、アップロードセクションからイメージを削除または置き換えます。

  6. 分析を選択して透かし検出分析を開始します。

  7. イメージは結果 でプレビューされ、イメージの下にウォーターマークが検出され、イメージ全体にバナーが表示されてウォーターマークが検出されるかどうかを示します。透かしが検出されない場合、イメージの下のテキストには透かしが検出されなかったと表示されます。

  8. 次のイメージをロードするには、アップロードセクションのイメージのサムネイルで X を選択し、分析する新しいイメージを選択します。

プロンプトエンジニアリングガイドライン

マスクプロンプト – このアルゴリズムはピクセルをコンセプトに分類します。マスクする画像の領域をマスクプロンプトの解釈に基づいて分類するためのテキストプロンプトを、ユーザーが入力できます。プロンプトオプションを使うと、より複雑なプロンプトを解釈して、マスクをセグメンテーションアルゴリズムにエンコードできます。

画像マスク – 画像マスクを使用してマスク値を設定することもできます。画像マスクをマスクのプロンプト入力と組み合わせると、正解率が向上します。画像マスクファイルは、以下のパラメータに準拠している必要があります。

  • マスク画像の値は 0 (黒) または 255 (白) でなければなりません。値が 0 の画像マスク領域は、ユーザープロンプトによる画像または入力画像で再生成されます。

  • maskImage フィールドは Base64 でエンコードされた画像文字列である必要があります。

  • マスク画像は、入力画像と同じ寸法 (高さと幅が同じ) である必要があります。

  • 入力画像とマスク画像には PNG または JPG ファイルのみを使用できます。

  • マスク画像には白黒のピクセル値のみを使用する必要があります。

  • マスク画像では RGB チャネルのみを使用できます (アルファチャネルはサポートされていません)。

Amazon Titan Image Generator G1プロンプトエンジニアリングの詳細については、「Amazon Titan Image Generator G1 プロンプトエンジニアリングのベストプラクティス」を参照してください。

一般的なプロンプトエンジニアリングガイドラインについては、「プロンプトエンジニアリングガイドライン」を参照してください。