Titan Multimodal Embeddings G1Modello Amazon - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Titan Multimodal Embeddings G1Modello Amazon

I modelli Amazon Titan Foundation sono preaddestrati su set di dati di grandi dimensioni, il che li rende modelli potenti e generici. Usali così come sono o personalizzali ottimizzando i modelli con i tuoi dati per un'attività particolare senza annotare grandi volumi di dati.

Esistono tre tipi di modelli Titan: incorporamenti, generazione di testo e generazione di immagini.

Esistono due Titan Multimodal Embeddings G1 modelli. Il modello Titan Multimodal Embeddings G1 traduce gli input di testo (parole, frasi o possibilmente grandi unità di testo) in rappresentazioni numeriche (note come incorporamenti) che contengono il significato semantico del testo. Sebbene questo modello non generi testo, è utile per applicazioni come la personalizzazione e la ricerca. Confrontando gli incorporamenti, il modello produrrà risposte più pertinenti e contestuali rispetto alla corrispondenza delle parole. Il modello Multimodal Embeddings G1 viene utilizzato per casi d'uso come la ricerca di immagini per testo, per immagine per analogia o per una combinazione di testo e immagine. Traduce l'immagine o il testo di input in un incorporamento che contiene il significato semantico dell'immagine e del testo nello stesso spazio semantico.

I modelli Titan Text sono LLM generativi per attività quali riepilogo, generazione di testo, classificazione, QnA aperto ed estrazione di informazioni. Sono inoltre addestrati su molti linguaggi di programmazione diversi, nonché su formati rich text come tabelle, file JSON e .csv, tra gli altri formati.

Amazon Titan Multimodal Embeddings modello G1 - Modello testuale

  • ID modello: amazon.titan-embed-image-v1

  • Numero massimo di token di testo in ingresso: 8.192

  • Lingue: inglese (più di 25 lingue in anteprima)

  • Dimensione massima dell'immagine di input: 5 MB

  • Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256

  • Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata

  • Casi d'uso supportati: RAG, ricerca di documenti, riclassificazione, classificazione, ecc.

Titan Text Embeddings V1 accetta come input una stringa non vuota con un massimo di 8.192 token e restituisce un incorporamento dimensionale di 1.024. Il rapporto caratteri/token in inglese è 4,6 char/token. Nota sui casi d'uso di RAG: sebbene Titan Text Embeddings V2 sia in grado di ospitare fino a 8.192 token, consigliamo di segmentare i documenti in segmenti logici (come paragrafi o sezioni).

Lunghezza di incorporamento

L'impostazione di una lunghezza di incorporamento personalizzata è facoltativa. La lunghezza di incorporamento predefinita è di 1.024 caratteri, il che funzionerà per la maggior parte dei casi d'uso. La lunghezza di incorporamento può essere impostata su 256, 384 o 1.024 caratteri. Dimensioni di incorporamento maggiori creano risposte più dettagliate, ma aumentano anche il tempo di calcolo. Lunghezze di incorporamento più brevi sono meno dettagliate ma migliorano i tempi di risposta.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

Ottimizzazione

  • L'input per il Titan Multimodal Embeddings G1 finetuning di Amazon è costituito da coppie immagine-testo.

  • Formati di immagine: PNG, JPEG

  • Dimensione massima dell'immagine di input: 5 MB

  • Dimensioni dell'immagine: min: 128 px, max: 4.096 px

  • Numero massimo di token nella didascalia: 128

  • Intervallo dimensioni del set di dati di addestramento: 1.000–500.000

  • Intervallo dimensioni del set di dati di convalida: 8–50.000

  • Lunghezza della didascalia in caratteri: 0–2.560

  • Numero massimo di pixel totali per immagine: 2048*2048*3

  • Proporzioni (l/h): min: 0,25, max: 4

Preparazione di set di dati

Per il set di dati di addestramento, crea un file .jsonl con più righe JSON. Ogni riga JSON contiene attributi image-ref e caption simili al formato Sagemaker Augmented Manifest. È richiesto un set di dati di convalida. I sottotitoli automatici non sono attualmente supportati.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Per i set di dati di addestramento e di convalida, crea file .jsonl con più righe JSON.

I percorsi Amazon S3 devono trovarsi nelle stesse cartelle in cui hai fornito le autorizzazioni ad Amazon Bedrock per accedere ai dati allegando una policy IAM al tuo ruolo di servizio Amazon Bedrock. Per ulteriori informazioni sulla concessione di policy IAM per i dati di addestramento, consulta Concessione dell'accesso ai dati di addestramento ai processi personalizzati.

Iperparametri

Questi valori possono essere adattati per gli iperparametri del modello Multimodal Embeddings. I valori predefiniti saranno adatti alla maggior parte dei casi d'uso.

  • Velocità di apprendimento – (frequenza di apprendimento min/max) – impostazione predefinita: 5,00E-05, min: 5,00E-08, max: 1

  • Dimensione del batch – dimensione effettiva del batch – impostazione predefinita: 576, min: 256, max: 9.216

  • Numero massimo di epoche – impostazione predefinita: "auto", min: 1, max: 100