Stability.ai Diffusion 1.0 imagen a imagen (enmascaramiento)

El modelo Stability.ai Diffusion 1.0 tiene los siguientes parámetros de inferencia y la respuesta del modelo para usar máscaras con las llamadas de inferencia de imagen a imagen.

Solicitud y respuesta

El cuerpo de la solicitud se pasa en el body campo de una solicitud a InvokeModelo InvokeModelWithResponseStream.

Para obtener más información, consulte https://platform.stability. ai/docs/api-reference#tag/v1generation/operation/masking.

Request

El modelo Stability.ai Diffusion 1.0 tiene los siguientes parámetros de inferencia para realizar llamadas de inferencia de imagen a imagen (enmascaramiento).


{
        "text_prompts": [
            {
                "text": string,
                "weight": float
            }
        ],
        "init_image" : string ,
        "mask_source" : string,
        "mask_image" : string,
        "cfg_scale": float,
        "clip_guidance_preset": string,
        "sampler": string,
        "samples" : int,
        "seed": int,
        "steps": int,
        "style_preset": string,
        "extras" : json object
}

Los siguientes parámetros son obligatorios.

text_prompt (obligatorio): una matriz de mensajes de texto que se utilizan en la generación. Cada elemento es un objeto JSON que contiene una petición y una ponderación para la petición.

text: el mensaje que desea pasar al modelo.

Mínimo	Máximo
0	2000

weight: (opcional) la ponderación que el modelo debe aplicar a la petición. Un valor inferior a cero declara una petición negativa. Utilice una petición negativa para indicar al modelo que evite ciertos conceptos. El valor predeterminado de weight es uno.

init_image: (obligatoria) la imagen codificada en base64 que quiera utilizar para inicializar el proceso de difusión.
mask_source: (obligatorio) determina el origen de la máscara. Los valores posibles son los siguientes:
- MASK_IMAGE_WHITE: usa los píxeles blancos de la imagen de máscara en mask_image como máscara. Los píxeles blancos se sustituyen y los píxeles negros permanecen inalterados.
- MASK_IMAGE_BLACK: usa los píxeles negros de la imagen de máscara en mask_image como máscara. Los píxeles negros se sustituyen y los píxeles blancos permanecen inalterados.
- INIT_IMAGE_ALPHA: usa el canal alfa de la imagen en init_image como máscara, se sustituyen los píxeles totalmente transparentes y los píxeles totalmente opacos se dejan sin cambios.
mask_image: (obligatorio) la imagen de máscara codificada en base64 que desea utilizar como máscara para la imagen de origen en init_image. Debe tener las mismas dimensiones que la imagen de origen. Use la opción mask_source para especificar qué píxeles deben reemplazarse.

Los siguientes son parámetros opcionales.

cfg_scale: (opcional) determina en qué medida la imagen final representa la petición. Utilice un número más bajo para aumentar la asignación al azar de la generación.

Predeterminado/a	Mínimo	Máximo
7	0	35

clip_guidance_preset: (opcional) Enum: FAST_BLUE, FAST_GREEN, NONE, SIMPLE, SLOW, SLOWER, SLOWEST.
sampler: (opcional) el muestreador que se utilizará en el proceso de difusión. Si se omite este valor, el modelo seleccionará automáticamente el muestreador adecuado por usted.

Enum: DDIM, DDPM, K_DPMPP_2M, K_DPMPP_2S_ANCESTRAL, K_DPM_2, K_DPM_2_ANCESTRAL, K_EULER, K_EULER_ANCESTRAL, K_HEUN K_LMS.

samples (opcional): el número de imágenes que se van a generar. Actualmente, Amazon Bedrock admite la generación de una imagen. Si proporciona un valor para samples, el valor debe ser uno. genera

Predeterminado/a	Mínimo	Máximo
1	1	1

seed (opcional): la inicialización determina el ajuste de ruido inicial. Utilice la misma inicialización y los mismos ajustes que en una ejecución anterior para permitir que la inferencia cree una imagen similar. Si no establece este valor, o si el valor es 0, se establece como un número aleatorio.

Predeterminado/a	Mínimo	Máximo
0	0	4294967295

steps: (opcional) el paso de generación determina cuántas veces se muestreará la imagen. Más pasos pueden dar como resultado un resultado más preciso.

Predeterminado/a	Mínimo	Máximo
30	10	50

style_preset (opcional): un ajuste preestablecido de estilo que guía el modelo de imagen hacia un estilo concreto. Esta lista de estilos preestablecidos está sujeta a cambios.

Enum: 3d-model, analog-film, animé, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture
extras: (opcional) parámetros adicionales que se transfieren al motor. Utilice esta opción con precaución. Estos parámetros se utilizan para funciones experimentales o en desarrollo y pueden cambiar sin previo aviso.

Response

El modelo Stability.ai Diffusion 1.0 devuelve los siguientes campos para realizar llamadas de inferencia de texto a imagen.


{
    "result": string,
    "artifacts": [
        {
            "seed": int,
            "base64": string,
            "finishReason": string
        }
    ]
}

result: el resultado de la operación. Si se ejecuta correctamente, la respuesta es success.
artifacts: una matriz de imágenes, una para cada imagen solicitada.
- seed: el valor de la semilla utilizada para generar la imagen.
- base64: la imagen codificada en base64 que generó el modelo.
- finishedReason: el resultado del proceso de generación de imágenes. Los valores válidos son:
  - SUCCESS: el proceso de generación de imágenes se realizó correctamente.
  - ERROR: se ha producido un error.
  - CONTENT_FILTERED: el filtro de contenido filtró la imagen y la imagen podría estar borrosa.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Solicitud y respuesta de Stable Image Ultra

Stability.ai Stable Diffusion 3