Stability.ai Diffusion 1.0 de imagem para imagem (mascaramento)

O modelo Stability.ai Diffusion 1.0 tem os parâmetros de inferência e a resposta de modelo a seguir para usar máscaras com chamadas de inferência de imagem para imagem.

Solicitação e reposta

O corpo da solicitação é passado no body campo de uma solicitação para InvokeModelou InvokeModelWithResponseStream.

Para obter mais informações, consulte https://platform.stability. ai/docs/api-reference#tag/v1generation/operation/masking.

Request

O modelo Stability.ai Diffusion 1.0 tem os parâmetros de inferência a seguir para chamadas de inferência de imagem para imagem (mascaramento).


{
        "text_prompts": [
            {
                "text": string,
                "weight": float
            }
        ],
        "init_image" : string ,
        "mask_source" : string,
        "mask_image" : string,
        "cfg_scale": float,
        "clip_guidance_preset": string,
        "sampler": string,
        "samples" : int,
        "seed": int,
        "steps": int,
        "style_preset": string,
        "extras" : json object
}

Veja a seguir os parâmetros necessários.

text_prompt (obrigatório): uma matriz de prompts de texto a serem usados na geração. Cada elemento é um objeto JSON que contém um prompt e um peso para o prompt.

text: o prompt que você deseja enviar ao modelo.

Mínimo	Máximo
0	2000

peso (opcional): o peso que o modelo deve aplicar ao prompt. Um valor menor que zero declara um prompt negativo. Use um prompt negativo para fazer com que o modelo evite certos conceitos. O valor padrão de weight é 1.

init_image (obrigatório): a imagem codificada em base64 que você deseja usar para inicializar o processo de difusão.
mask_source (obrigatório): determina de onde obter a máscara. Os valores possíveis são:
- MASK_IMAGE_WHITE: use os pixels brancos da imagem da máscara em mask_image como máscara. Os pixels brancos são substituídos e os pixels pretos permanecem inalterados.
- MASK_IMAGE_BLACK: use os pixels pretos da imagem da máscara em mask_image como máscara. Os pixels pretos são substituídos e os pixels brancos permanecem inalterados.
- INIT_IMAGE_ALPHA: use o canal alfa da imagem em init_image como máscara. Os pixels totalmente transparentes são substituídos e os pixels totalmente opacos permanecem inalterados.
mask_image (obrigatório): a imagem de máscara codificada em base64 que você deseja usar como máscara para a imagem de origem em init_image. Deve ter as mesmas dimensões da imagem de origem. Use a opção mask_source para especificar quais pixels devem ser substituídos.

Veja a seguir os parâmetros opcionais.

cfg_scale (opcional): determina o quanto a imagem final retrata o prompt. Use um número menor para aumentar a aleatoriedade na geração.

Padrão	Mínimo	Máximo
7	0	35

clip_guidance_preset (opcional) Enum: FAST_BLUE, FAST_GREEN, NONE, SIMPLE, SLOW, SLOWER, SLOWEST.
sampler (Opcional): o amostrador a ser usado no processo de difusão. Se esse valor for omitido, o modelo selecionará automaticamente um amostrador apropriado para você.

Enum: DDIM, DDPM, K_DPMPP_2M, K_DPMPP_2S_ANCESTRAL, K_DPM_2, K_DPM_2_ANCESTRAL, K_EULER, K_EULER_ANCESTRAL, K_HEUN K_LMS.

samples (opcional): o número de imagens a serem geradas. No momento, o Amazon Bedrock oferece suporte à geração de uma imagem. Se você fornecer um valor para samples, esse valor deverá ser um.

Padrão	Mínimo	Máximo
1	1	1

seed (opcional): a propagação determina a configuração inicial de ruído. Use a mesma semente e as mesmas configurações de uma execução anterior para permitir que a inferência crie uma imagem semelhante. Se você não definir esse valor ou se for 0, ele será definido como um número aleatório.

Padrão	Mínimo	Máximo
0	0	4294967295

steps (opcional): a etapa de geração determina quantas vezes a imagem é amostrada. Mais etapas podem resultar em um resultado mais preciso.

Padrão	Mínimo	Máximo
30	10	50

style_preset (opcional): uma predefinição de estilo que orienta o modelo de imagem em direção a um estilo específico. Essa lista de predefinições de estilo está sujeita a alterações.

Enum: 3d-model, analog-film, animé, cinematic, comic-book, digital-art, enhance, fantasy-art, isometric, line-art, low-poly, modeling-compound, neon-punk, origami, photographic, pixel-art, tile-texture
extras (opcional): parâmetros extras enviados ao mecanismo. Use com cautela. Esses parâmetros são usados para recursos experimentais ou em desenvolvimento e podem ser alterados sem aviso prévio.

Response

O modelo Diffusion 1.0 da Stability AI retorna os campos a seguir para chamadas de inferência de texto para imagem.


{
    "result": string,
    "artifacts": [
        {
            "seed": int,
            "base64": string,
            "finishReason": string
        }
    ]
}

result: o resultado da operação. Se for bem-sucedida, a resposta será success.
artifacts: uma matriz de imagens, uma para cada imagem solicitada.
- seed: o valor da propagação usada para gerar a imagem.
- base64: a imagem codificada em base64 que o modelo gerou.
- finishedReason: o resultado do processo de geração da imagem. Os valores válidos são:
  - SUCCESS: o processo de geração da imagem foi bem-sucedido.
  - ERROR: ocorreu um erro.
  - CONTENT_FILTERED: o filtro de conteúdo filtrou a imagem e ela pode estar desfocada.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solicitação e resposta do Stable Image Ultra

Stable Diffusion 3 da Stability AI