Titan Multimodal Embeddings G1Modèle Amazon - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Titan Multimodal Embeddings G1Modèle Amazon

Les modèles Amazon Titan Foundation sont préentraînés sur de grands ensembles de données, ce qui en fait de puissants modèles polyvalents. Utilisez-les tels quels ou personnalisez-les en ajustant les modèles avec vos propres données pour une tâche particulière sans annoter de gros volumes de données.

Il existe trois types de modèles Titan : les intégrations, la génération de texte et la génération d'images.

Il existe deux Titan Multimodal Embeddings G1 modèles. Le modèle Titan Multimodal Embeddings G1 traduit les entrées de texte (mots, phrases ou éventuellement de grandes unités de texte) en représentations numériques (appelées intégrations) qui contiennent le sens sémantique du texte. Bien que ce modèle ne génère pas de texte, il est utile pour les applications telles que la personnalisation et la recherche. En comparant les intégrations, le modèle produira des réponses plus pertinentes et contextuelles que la correspondance de mots. Le modèle Multimodal Embeddings G1 est utilisé dans des cas d'utilisation tels que la recherche d'images par texte, par image pour des similitudes ou par une combinaison de texte et d'image. Il traduit l'image ou le texte d'entrée en une intégration qui contient la signification sémantique de l'image et du texte dans le même espace sémantique.

Les modèles Titan Text sont des LLM génératifs pour des tâches telles que la synthèse, la génération de texte, la classification, le QnA ouvert et l'extraction d'informations. Ils sont également formés à de nombreux langages de programmation différents, ainsi qu'à des formats de texte enrichi tels que les tableaux, les fichiers JSON et .csv, entre autres formats.

Amazon Titan Multimodal Embeddings modèle G1 - Modèle texte

  • ID du modèle : amazon.titan-embed-image-v1

  • Nombre maximum de jetons de texte d'entrée : 8 192

  • Langues — Anglais (plus de 25 langues en avant-première)

  • Taille maximale de l’image d’entrée : 5 Mo

  • Taille du vecteur de sortie : 1024 (par défaut), 384, 256

  • Types d’inférence : débit provisionné, à la demande

  • Cas d'utilisation pris en charge : RAG, recherche de documents, reclassement, classification, etc.

Titan Text Embeddings V1 prend en entrée une chaîne non vide contenant jusqu'à 8 192 jetons et renvoie une intégration de 1 024 dimensions. Le ratio de caractères par jeton en anglais est de 4,6 chars/jeton. Remarque sur les cas d'utilisation de RAG : Titan Text Embeddings V2 peut accueillir jusqu'à 8 192 jetons, mais nous recommandons de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).

Longueur d’intégration

La définition d’une longueur d’intégration personnalisée est facultative. La longueur d’intégration par défaut est de 1024 caractères, ce qui convient à la plupart des cas d’utilisation. La longueur d’intégration peut être définie sur 256, 384 ou 1024 caractères. Des tailles d’intégration plus importantes créent des réponses plus détaillées, mais augmentent également le temps de calcul. Des longueurs d’intégration plus courtes fournissent moins de détails mais améliorent le temps de réponse.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Affinement

  • Les paires image-texte sont entrées pour le Titan Multimodal Embeddings G1 réglage précis d'Amazon.

  • Formats d’image : PNG, JPEG

  • Limite de taille de l’image d’entrée : 5 Mo

  • Dimensions de l’image : min : 128 px, max : 4 096 px

  • Nombre maximal de jetons dans la légende : 128

  • Plage de tailles du jeu de données d’entraînement : 1000 à 500 000

  • Plage de tailles du jeu de données de validation : 8 à 50 000

  • Longueur de la légende en caractères : 0 à 2 560

  • Nombre total maximal de pixels par image : 2048*2048*3

  • Rapport hauteur/largeur : min : 0,25, max : 4

Préparation des jeux de données

Pour le jeu de données d’entraînement, créez un fichier .jsonl contenant plusieurs lignes JSON. Chaque ligne JSON contient à la fois des attributs image-ref et caption similaires au format de fichier manifeste augmenté Sagemaker. Un jeu de données de validation est requis. Le sous-titrage automatique n’est actuellement pas pris en charge.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Pour les jeux de données d’entraînement et de validation, vous devez créer des fichiers .jsonl contenant plusieurs lignes JSON.

Les chemins Amazon S3 doivent se trouver dans les mêmes dossiers dans lesquels vous avez autorisé Amazon Bedrock à accéder aux données en joignant une politique IAM à votre fonction du service Amazon Bedrock. Pour plus d’informations sur l’octroi de politiques IAM pour les données d’entraînement, consultez Attribution à des tâches personnalisées de l’accès à vos données d’entraînement.

Hyperparamètres

Ces valeurs peuvent être ajustées pour les hyperparamètres du modèle Multimodal Embeddings. Les valeurs par défaut conviendront à la plupart des cas d’utilisation.

  • Taux d’apprentissage (taux d’apprentissage min/max) : par défaut : 5,00E-05, min : 5,00E-08, max : 1

  • Taille de lot – Taille de lot effective : par défaut : 576, min : 256, max : 9 216

  • Nombre maximal d’époques : par défaut : « auto », min : 1, max : 100