Estructura de solicitudes y respuestas para la generación de imágenes

Modo de enfoque

Estructura de solicitudes y respuestas para la generación de imágenes - Amazon Nova

Los siguientes ejemplos presentan diferentes casos de uso de la generación de imágenes. Cada ejemplo proporciona una explicación de los campos que se utilizan para la generación de imágenes.

Text-to-image request


{
    "taskType": "TEXT_IMAGE",
    "textToImageParams": {
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

En esta solicitud se utilizan los siguientes textToImageParams campos:

text(Obligatorio): un mensaje de texto para generar la imagen. El mensaje debe tener una longitud de 1 a 1024 caracteres.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

Evite usar palabras negativas («no», «no», «sin», etc.) en sus valorestext. negativeText Por ejemplo, si no quiere que una imagen se vea reflejada, en lugar de incluir «sin espejos» o «sin espejos» en el text campo, utilice la palabra «espejos» en el negativeText campo.

Text-to-image request with image conditioning


{
    "taskType": "TEXT_IMAGE",
    "textToImageParams": {
        "conditionImage": string (Base64 encoded image),
        "controlMode": "CANNY_EDGE" | "SEGMENTATION", 
        "controlStrength": float,
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

En esta solicitud se utilizan los siguientes textToImageParams campos:

conditionImage(Obligatorio): una imagen JPEG o PNG que guía el diseño y la composición de la imagen generada. La imagen debe tener el formato de una cadena Base64. Consulte los Introduzca imágenes para la generación de imágenes requisitos adicionales.
controlMode(Opcional): especifica qué modo de acondicionamiento se debe utilizar. El valor predeterminado es «CANNY_EDGE».
- CANNY_EDGE— Los elementos de la imagen generada seguirán de cerca los contornos o «bordes» prominentes de la imagen condicionada.
- SEGMENTATION— La imagen de estado se analizará automáticamente para identificar las formas más destacadas del contenido. Este análisis da como resultado una máscara de segmentación que guía la generación, lo que da como resultado una imagen generada que sigue de cerca el diseño de la imagen condicionada, pero que deja al modelo más libertad dentro de los límites de cada área de contenido.
controlStrength(Opcional): especifica qué tan similares deben ser el diseño y la composición de la imagen generada a los. conditionImage El rango va de 0 a 1,0 y los valores más bajos introducen más aleatoriedad. El valor predeterminado es 0.7.
text(Obligatorio): un mensaje de texto para generar la imagen. El mensaje debe tener una longitud de 1 a 1024 caracteres.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

Color guided image generation request


{
    "taskType": "COLOR_GUIDED_GENERATION",
    "colorGuidedGenerationParams": {
        "colors": string[] (list of hexadecimal color values),
        "referenceImage": string (Base64 encoded image),
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

En esta solicitud se utilizan los siguientes colorGuidedGenerationParams campos:

colors(Obligatorio): una lista de hasta 10 códigos de color que definen la paleta de colores deseada para la imagen. Se expresa como valores hexadecimales con el formato «#RRGGBB». Por ejemplo, "#00FF00" es verde puro y «# FCF2 AB» es amarillo cálido. La colors lista tiene el efecto más fuerte cuando no referenceImage se proporciona a. De lo contrario, los colores de la lista y los colores de la imagen de referencia se utilizarán en la salida final.
referenceImage(Opcional): una imagen JPEG o PNG para usarla como referencia de tema y estilo. Los colores de la imagen también se incorporarán al resultado final, junto con los colores de la colors lista. Consulte Introduzca imágenes para la generación de imágenes los requisitos adicionales.
text(Obligatorio): un mensaje de texto para generar la imagen. El mensaje debe tener una longitud de 1 a 1024 caracteres.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

Image variation request


{
    "taskType": "IMAGE_VARIATION",
    "imageVariationParams": {
        "images": string[] (list of Base64 encoded images),
        "similarityStrength": float,
        "text": string,
        "negativeText": string 
    },
    "imageGenerationConfig": {
        "height": int,
        "width": int,
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

En esta solicitud se utilizan los siguientes imageVariationParams campos:

images(Obligatorio): una lista de 1 a 5 imágenes para utilizarlas como referencias. Cada una debe estar en formato JPEG o PNG y estar codificada como cadenas de Base64. Consulte Introduzca imágenes para la generación de imágenes los requisitos adicionales.
similarityStrength(Opcional): especifica qué tan similar debe ser la imagen generada a las imágenes de entrada. Los valores válidos están entre 0,2 y 1,0, y los valores más bajos se utilizan para introducir más aleatoriedad.
text(Obligatorio): un mensaje de texto para generar la imagen. El mensaje debe tener una longitud de 1 a 1024 caracteres. Si omite este campo, el modelo eliminará los elementos del área enmascarada. Se sustituirán por una extensión perfecta del fondo de la imagen.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

Inpainting request


{
    "taskType": "INPAINTING",
    "inPaintingParams": {
        "image": string (Base64 encoded image),
        "maskPrompt": string,
        "maskImage": string (Base64 encoded image),
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "numberOfImages": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int
    }
}

En esta solicitud se utilizan los siguientes inPaintingParams campos:

image(Obligatorio): el JPEG o PNG que desea modificar, formateado como una cadena de Base64. Consulte los Introduzca imágenes para la generación de imágenes requisitos adicionales.
maskPrompto maskImage (obligatorio): debe especificar el parámetro maskPrompt o el maskImage parámetro, pero no ambos.

maskPromptEs un mensaje de texto en lenguaje natural que describe las regiones de la imagen que se van a editar.

maskImageEs una imagen que define las áreas de la imagen que se van a editar. La imagen de la máscara debe tener el mismo tamaño que la imagen de entrada. Las áreas que se van a editar se sombrean en negro puro y las áreas que se deben ignorar se sombrean en blanco puro. No se permiten otros colores en la imagen de la máscara.

Tenga en cuenta que las solicitudes de pintura interior y exterior son opuestas en cuanto a los requisitos de color de las imágenes de la máscara.
text(Obligatorio): un mensaje de texto que describe lo que se debe generar en la región enmascarada. El mensaje debe tener una longitud de 1 a 1024 caracteres. Si omite este campo, el modelo eliminará los elementos del área enmascarada. Se sustituirán por una extensión perfecta del fondo de la imagen.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

Outpainting request


{
    "taskType": "OUTPAINTING",
    "outPaintingParams": {
        "image": string (Base64 encoded image),
        "maskPrompt": string,
        "maskImage": string (Base64 encoded image),
        "outPaintingMode": "DEFAULT" | "PRECISE",
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "numberOfImages": int,
        "quality": "standard" | "premium"
        "cfgScale": float,
        "seed": int
    }
}

En esta solicitud se utilizan los siguientes outPaintingParams campos:

image(Obligatorio): el JPEG o PNG que desea modificar, formateado como una cadena de Base64. Consulte los Introduzca imágenes para la generación de imágenes requisitos adicionales.
maskPrompto maskImage (obligatorio): debe especificar el parámetro maskPrompt o el maskImage parámetro, pero no ambos.

maskPromptEs un mensaje de texto en lenguaje natural que describe las regiones de la imagen que se van a editar.

maskImageEs una imagen que define las áreas de la imagen que se van a editar. La imagen de la máscara debe tener el mismo tamaño que la imagen de entrada. Las áreas que se van a editar se sombrean en blanco puro y las áreas que se deben ignorar se sombrean en negro puro. No se permiten otros colores en la imagen de la máscara.

Tenga en cuenta que las solicitudes de pintura interior y exterior son opuestas en cuanto a los requisitos de color de las imágenes de la máscara.
outPaintingMode- Determina cómo se interpreta la máscara que usted proporciona.

Se utiliza DEFAULT para realizar una transición suave entre el área enmascarada y el área no enmascarada. Algunos de los píxeles originales se utilizan como punto de partida para el nuevo fondo. Por lo general, este modo es mejor cuando se desea que el nuevo fondo utilice colores similares a los del fondo original. Sin embargo, puede obtener un efecto de halo si el mensaje solicita un fondo nuevo que sea significativamente diferente al fondo original.

PRECISEÚselo para cumplir estrictamente los límites de la máscara. Por lo general, este modo es mejor cuando se realizan cambios significativos en el fondo.
text(Obligatorio): un mensaje de texto que describe lo que se debe generar en la región enmascarada. El mensaje debe tener una longitud de 1 a 1024 caracteres. Si omite este campo, el modelo eliminará los elementos del área enmascarada. Se sustituirán por una extensión perfecta del fondo de la imagen.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

Background removal request


{
    "taskType": "BACKGROUND_REMOVAL",
    "backgroundRemovalParams": {
        "image": string (Base64 encoded image)
    }
}

En esta solicitud se utiliza el siguiente backgroundRemovalParams campo:

image(Obligatorio): el JPEG o PNG que desea modificar, con el formato de una cadena de Base64. Consulte los Introduzca imágenes para la generación de imágenes requisitos adicionales.

La BACKGROUND_REMOVAL tarea devolverá una imagen PNG con una transparencia total de 8 bits. Este formato proporciona un aislamiento fluido y limpio de los objetos en primer plano y facilita la composición de la imagen con otros elementos en una aplicación de edición de imágenes, una presentación o un sitio web. El fondo se puede cambiar fácilmente a un color sólido mediante un código personalizado sencillo.

Response body


{
    "images": "images": string[] (list of Base64 encoded images),
    "error": string
}

El cuerpo de la respuesta contendrá uno o más de los siguientes campos:

imágenes: si se ejecuta correctamente, se devuelve una lista de cadenas codificadas en Base64 que representan cada imagen que se generó. Esta lista no siempre contiene el mismo número de imágenes que solicitó. Es posible que las imágenes individuales se bloqueen una vez generadas si no cumplen con la política de moderación de contenido de la IA AWS responsable (RAI). Solo se devuelven las imágenes que cumplen con la política de la RAI.
error: si alguna imagen no se ajusta a la política de la RAI, se devuelve este campo. De lo contrario, este campo se omite en la respuesta.

anchor anchor anchor anchor anchor anchor anchor anchor


{
    "taskType": "TEXT_IMAGE",
    "textToImageParams": {
        "text": string,
        "negativeText": string
    },
    "imageGenerationConfig": {
        "width": int,
        "height": int,
        "quality": "standard" | "premium",
        "cfgScale": float,
        "seed": int,
        "numberOfImages": int
    }
}

En esta solicitud se utilizan los siguientes textToImageParams campos:

text(Obligatorio): un mensaje de texto para generar la imagen. El mensaje debe tener una longitud de 1 a 1024 caracteres.
negativeText(Opcional): un mensaje de texto para definir lo que no se debe incluir en la imagen. Este valor debe tener una longitud de 1 a 1024 caracteres.

nota

El imageGenerationConfig campo es común a todos los tipos de tareas exceptoBACKGROUND_REMOVAL. Es opcional y contiene los siguientes campos. Si omite este objeto, se utilizan las configuraciones por defecto.

widthy height (opcional): defina el tamaño y la relación de aspecto de la imagen generada. Ambos valores predeterminados son 1024. Para ver la lista completa de las resoluciones compatibles, consulteResoluciones de imagen compatibles.
quality(Opcional): especifica la calidad que se utilizará al generar la imagen: «estándar» (predeterminada) o «premium».
cfgScale(Opcional): especifica la intensidad con la que la imagen generada debe cumplir la solicitud. Utilice un valor más bajo para introducir más asignación al azar en la generación.

Mínimo Máximo Predeterminado/a

1.1 10 6.5
numberOfImages(Opcional): el número de imágenes que se van a generar.

Mínimo Máximo Predeterminado/a

1 5 1
seed(Opcional): determina la configuración de ruido inicial para el proceso de generación. Si se cambia el valor inicial sin modificar todos los demás parámetros, se obtendrá una imagen totalmente nueva que seguirá ajustándose a las indicaciones, las dimensiones y demás ajustes. Es habitual experimentar con una variedad de valores iniciales para encontrar la imagen perfecta.

Mínimo Máximo Predeterminado/a

0 858.993.459 12

Mínimo	Máximo	Predeterminado/a
1.1	10	6.5

Mínimo	Máximo	Predeterminado/a
1	5	1

Mínimo	Máximo	Predeterminado/a
0	858.993.459	12

importante

La resolución (widthyheight)numberOfImages, y quality todas tienen un impacto en el tiempo que tarda la generación en completarse. El AWS SDK tiene un valor predeterminado read_timeout de 60 segundos, que se puede superar fácilmente si se utilizan valores más altos para estos parámetros. Por lo tanto, se recomienda aumentar el número read_timeout de llamadas de invocación a al menos 5 minutos (300 segundos). Los ejemplos de código muestran cómo hacerlo.