Stability.ai Diffusion 1.0 による画像からの画像生成 (マスキング)

Stability.ai Diffusion 1.0 モデルには、画像から画像を生成する推論呼び出しでマスクを使用するための以下の推論パラメータとモデルレスポンスがあります。

リクエストとレスポンス

リクエストボディは、InvokeModel または InvokeModelWithResponseStream へのリクエストの body フィールドに渡されます。

詳細については、https://platform.stability.ai/docs/api-reference#tag/v1generation/operation/masking を参照してください。

Request

Stability.ai Diffusion 1.0 モデルには、画像から画像を生成する (マスキング) 推論呼び出しの以下の推論パラメータがあります。


{
        "text_prompts": [
            {
                "text": string,
                "weight": float
            }
        ],
        "init_image" : string ,
        "mask_source" : string,
        "mask_image" : string,
        "cfg_scale": float,
        "clip_guidance_preset": string,
        "sampler": string,
        "samples" : int,
        "seed": int,
        "steps": int,
        "style_preset": string,
        "extras" : json object
}

必須パラメータを以下に示します。

text_prompt — (必須) 生成に使用するテキストプロンプトの配列。各要素は、プロンプトとプロンプトのウェイトを含む JSON オブジェクトです。

text — モデルに渡すプロンプト。

最小値	最大値
0	2000

weight — (オプション) モデルがプロンプトに適用するウェイト。0 未満の値は負のプロンプトを宣言します。負のプロンプトを使用して、特定の概念を避けるようモデルに伝えます。weight のデフォルト値は 1 です。

init_image — (必須) 拡散プロセスの初期化に使用する base64 でエンコードされた画像。
mask_source — (必須) マスクのソースを決定します。可能な値は以下のとおりです。
- MASK_IMAGE_WHITE — mask_image のマスク画像の白いピクセルをマスクとして使用します。白いピクセルが置き換えられ、黒いピクセルは変更されません。
- MASK_IMAGE_BLACK — mask_image のマスク画像の黒いピクセルをマスクとして使用します。黒いピクセルが置き換えられ、白いピクセルは変更されません。
- INIT_IMAGE_ALPHA — init_image 画像のアルファチャネルをマスクとして使用します。完全に透明なピクセルが置き換えられ、完全に不透明なピクセルは変更されません。
mask_image — (必須) init_image のソースイメージのマスクとして使用する Base64 でエンコードされたマスク画像。ソースイメージと同じサイズである必要があります。mask_source オプションを使用して、置き換えるかピクセルを指定します。

オプションのパラメータを以下に示します。

cfg_scale — (オプション) 最終的な画像でプロンプトをどの程度表現するかを決定します。小さな数値を指定すると、生成結果におけるランダム性が増します。

デフォルト値	最小値	最大値
7	0	35

clip_guidance_preset – (オプション) 列挙型: FAST_BLUE, FAST_GREEN, NONE, SIMPLE, SLOW, SLOWER, SLOWEST。
sampler — (オプション) 拡散処理に使用するサンプラー。この値を省略すると、モデルは自動的に適切なサンプラーを選択します。

列挙型: DDIM, DDPM, K_DPMPP_2M, K_DPMPP_2S_ANCESTRAL, K_DPM_2, K_DPM_2_ANCESTRAL, K_EULER, K_EULER_ANCESTRAL, K_HEUN K_LMS。

samples - (オプション) 生成する画像の数。現在、Amazon Bedrock は 1 つの画像の生成をサポートしています。samples の値を指定する場合、値は 1 である必要があります。によって画像が生成されます。

デフォルト値	最小値	最大値
1	1	1

seed – (オプション) シードでは初期ノイズ設定を指定します。前回の実行と同じシードと設定を使用して推論を行えば、類似の画像を作成できます。この値を設定しないか、値が 0 の場合、乱数が設定されます。

デフォルト値	最小値	最大値
0	0	4294967295

steps – (オプション) 生成ステップでは、画像をサンプリングする回数を設定します。このステップの回数が大きいほど、より正確な結果が得られます。

デフォルト値	最小値	最大値
30	10	50

style_preset — (オプション) 画像モデルを特定のスタイルに導くスタイルプリセット。このスタイルプリセットのリストは変更される可能性があります。

列挙型: 3d-model, analog-film, animé, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture
extras — (オプション) エンジンに渡される追加のパラメータ。注意して使用してください。このようなパラメータは開発中または実験中の機能に使用され、警告なしに変更される可能性があります。

Response

Stability.ai Diffusion 1.0 モデルでは、テキストから画像を生成する推論呼び出しの以下のフィールドを返します。


{
    "result": string,
    "artifacts": [
        {
            "seed": int,
            "base64": string,
            "finishReason": string
        }
    ]
}

result – 操作の結果。成功した場合、レスポンスは success です。
artifacts – リクエストされた画像ごとに 1 個ずつの画像の配列。
- seed — 画像の生成に使用されたシードの値。
- base64 — モデルが生成した base64 でエンコードされた画像。
- finishedReason – 画像生成プロセスの結果。有効な値は次のとおりです。
  - SUCCESS – 画像生成プロセスが成功しました。
  - ERROR – 想定外のエラーが発生しました。
  - CONTENT_FILTERED — コンテンツフィルターにより画像がフィルタされ、画像がぼやける可能性があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Stable Image Ultra のリクエストとレスポンス

Stability.ai Stable Diffusion 3