Longueur d’intégration Affinement Préparation des jeux de données Hyperparamètres

Titan Multimodal Embeddings G1Modèle Amazon

Les modèles Amazon Titan Foundation sont préentraînés sur de grands ensembles de données, ce qui en fait de puissants modèles polyvalents. Utilisez-les tels quels ou personnalisez-les en ajustant les modèles avec vos propres données pour une tâche particulière sans annoter de gros volumes de données.

Il existe trois types de modèles Titan : les intégrations, la génération de texte et la génération d'images.

Il existe deux Titan Multimodal Embeddings G1 modèles. Le modèle Titan Multimodal Embeddings G1 traduit les entrées de texte (mots, phrases ou éventuellement de grandes unités de texte) en représentations numériques (appelées intégrations) qui contiennent le sens sémantique du texte. Bien que ce modèle ne génère pas de texte, il est utile pour les applications telles que la personnalisation et la recherche. En comparant les intégrations, le modèle produira des réponses plus pertinentes et contextuelles que la correspondance de mots. Le modèle Multimodal Embeddings G1 est utilisé dans des cas d'utilisation tels que la recherche d'images par texte, par image pour des similitudes ou par une combinaison de texte et d'image. Il traduit l'image ou le texte d'entrée en une intégration qui contient la signification sémantique de l'image et du texte dans le même espace sémantique.

Les modèles Titan Text sont génératifs LLMs pour des tâches telles que la synthèse, la génération de texte, la classification, le QnA ouvert et l'extraction d'informations. Ils sont également formés à de nombreux langages de programmation différents, ainsi qu'à des formats de texte enrichi tels que les tableaux, les fichiers JSON et .csv, entre autres formats.

Amazon Titan Multimodal Embeddings, modèle G1

ID du modèle : amazon.titan-embed-image-v1
Nombre maximum de jetons de texte en entrée : 256
Langues : anglais
Taille maximale de l'image en entrée : 25 Mo
Taille du vecteur de sortie : 1024 (par défaut), 384, 256
Types d’inférence : débit provisionné, à la demande
Cas d'utilisation pris en charge : recherche, recommandation et personnalisation.

Titan Text Embeddings V1 prend en entrée une chaîne non vide contenant jusqu'à 8 192 jetons et renvoie une intégration de 1 024 dimensions. Le ratio de caractères par jeton en anglais est de 4,7 chars/jeton, en moyenne. Remarque sur les cas d'utilisation de RAG : Titan Text Embeddings V2 peut accueillir jusqu'à 8 192 jetons, mais nous recommandons de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).

Longueur d’intégration

La définition d’une longueur d’intégration personnalisée est facultative. La longueur d’intégration par défaut est de 1024 caractères, ce qui convient à la plupart des cas d’utilisation. La longueur d’intégration peut être définie sur 256, 384 ou 1024 caractères. Des tailles d’intégration plus importantes créent des réponses plus détaillées, mais augmentent également le temps de calcul. Des longueurs d’intégration plus courtes fournissent moins de détails mais améliorent le temps de réponse.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Affinement

Les paires image-texte sont entrées pour le Titan Multimodal Embeddings G1 réglage précis d'Amazon.
Formats d’image : PNG, JPEG
Limite de taille de l'image d'entrée : 25 Mo
Dimensions de l'image : min : 256 px, max : 4 096 px
Nombre maximal de jetons dans la légende : 128
Plage de tailles du jeu de données d’entraînement : 1000 à 500 000
Plage de tailles du jeu de données de validation : 8 à 50 000
Longueur de la légende en caractères : 0 à 2 560
Nombre total maximal de pixels par image : 2048*2048*3
Rapport hauteur/largeur : min : 0,25, max : 4

Préparation des jeux de données

Pour le jeu de données d’entraînement, créez un fichier .jsonl contenant plusieurs lignes JSON. Chaque ligne JSON contient à la fois des attributs image-ref et caption similaires au format de fichier manifeste augmenté Sagemaker. Un jeu de données de validation est requis. Le sous-titrage automatique n’est actuellement pas pris en charge.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Pour les jeux de données d’entraînement et de validation, vous devez créer des fichiers .jsonl contenant plusieurs lignes JSON.

Les chemins Amazon S3 doivent se trouver dans les mêmes dossiers dans lesquels vous avez autorisé Amazon Bedrock à accéder aux données en joignant une politique IAM à votre fonction du service Amazon Bedrock. Pour plus d’informations sur l’octroi de politiques IAM pour les données d’entraînement, consultez Attribution à des tâches personnalisées de l’accès à vos données d’entraînement.

Hyperparamètres

Ces valeurs peuvent être ajustées pour les hyperparamètres du modèle Multimodal Embeddings. Les valeurs par défaut conviendront à la plupart des cas d’utilisation.

Taux d’apprentissage (taux d’apprentissage min/max) : par défaut : 5,00E-05, min : 5,00E-08, max : 1
Taille de lot – Taille de lot effective : par défaut : 576, min : 256, max : 9 216
Nombre maximal d’époques : par défaut : « auto », min : 1, max : 100

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Intégrations de texte Amazon Titan

Présentation des modèles Amazon Titan Image Generator G1