Lunghezza di incorporamento Ottimizzazione Preparazione di set di dati Iperparametri

Titan Multimodal Embeddings G1Modello Amazon

I modelli Amazon Titan Foundation sono preaddestrati su set di dati di grandi dimensioni, il che li rende potenti modelli generici. Usali così come sono o personalizzali ottimizzando i modelli con i tuoi dati per un'attività particolare senza annotare grandi volumi di dati.

Esistono tre tipi di modelli Titan: incorporamenti, generazione di testo e generazione di immagini.

Esistono due Titan Multimodal Embeddings G1 modelli. Il modello Titan Multimodal Embeddings G1 traduce gli input di testo (parole, frasi o possibilmente grandi unità di testo) in rappresentazioni numeriche (note come incorporamenti) che contengono il significato semantico del testo. Sebbene questo modello non generi testo, è utile per applicazioni come la personalizzazione e la ricerca. Confrontando gli incorporamenti, il modello produrrà risposte più pertinenti e contestuali rispetto alla corrispondenza delle parole. Il modello Multimodal Embeddings G1 viene utilizzato per casi d'uso come la ricerca di immagini per testo, per immagine per analogia o per una combinazione di testo e immagine. Traduce l'immagine o il testo di input in un incorporamento che contiene il significato semantico dell'immagine e del testo nello stesso spazio semantico.

I modelli Titan Text sono generativi LLMs per attività quali riepilogo, generazione di testo, classificazione, QnA aperto ed estrazione di informazioni. Sono inoltre addestrati su molti linguaggi di programmazione diversi, nonché su formati rich text come tabelle, file JSON e .csv, tra gli altri formati.

Incorporamenti multimodali Amazon Titan modello G1

ID modello: amazon.titan-embed-image-v1
Numero massimo di token di testo in ingresso: 256
Lingue: inglese
Dimensione massima dell'immagine di input: 25 MB
Dimensione del vettore di output: 1.024 (impostazione predefinita), 384, 256
Tipi di inferenza: on demand, velocità di trasmissione effettiva assegnata
Casi d'uso supportati: ricerca, raccomandazione e personalizzazione.

Titan Text Embeddings V1 accetta come input una stringa non vuota con un massimo di 8.192 token e restituisce un incorporamento dimensionale di 1.024. Il rapporto caratteri/token in inglese è in media di 4,7 char/token. Nota sui casi d'uso di RAG: sebbene Titan Text Embeddings V2 sia in grado di ospitare fino a 8.192 token, consigliamo di segmentare i documenti in segmenti logici (come paragrafi o sezioni).

Lunghezza di incorporamento

L'impostazione di una lunghezza di incorporamento personalizzata è facoltativa. La lunghezza di incorporamento predefinita è di 1.024 caratteri, il che funzionerà per la maggior parte dei casi d'uso. La lunghezza di incorporamento può essere impostata su 256, 384 o 1.024 caratteri. Dimensioni di incorporamento maggiori creano risposte più dettagliate, ma aumentano anche il tempo di calcolo. Lunghezze di incorporamento più brevi sono meno dettagliate ma migliorano i tempi di risposta.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 384, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

Ottimizzazione

L'input per il Titan Multimodal Embeddings G1 finetuning di Amazon è costituito da coppie immagine-testo.
Formati di immagine: PNG, JPEG
Limite di dimensione dell'immagine di input: 25 MB
Dimensioni dell'immagine: min: 256 px, max: 4.096 px
Numero massimo di token nella didascalia: 128
Intervallo dimensioni del set di dati di addestramento: 1.000–500.000
Intervallo dimensioni del set di dati di convalida: 8–50.000
Lunghezza della didascalia in caratteri: 0–2.560
Numero massimo di pixel totali per immagine: 2048*2048*3
Proporzioni (l/h): min: 0,25, max: 4

Preparazione di set di dati

Per il set di dati di addestramento, crea un file .jsonl con più righe JSON. Ogni riga JSON contiene attributi image-ref e caption simili al formato Sagemaker Augmented Manifest. È richiesto un set di dati di convalida. I sottotitoli automatici non sono attualmente supportati.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

Per i set di dati di addestramento e di convalida, crea file .jsonl con più righe JSON.

I percorsi Amazon S3 devono trovarsi nelle stesse cartelle in cui hai fornito le autorizzazioni ad Amazon Bedrock per accedere ai dati allegando una policy IAM al tuo ruolo di servizio Amazon Bedrock. Per ulteriori informazioni sulla concessione di policy IAM per i dati di addestramento, consulta Concessione dell'accesso ai dati di addestramento ai processi personalizzati.

Iperparametri

Questi valori possono essere adattati per gli iperparametri del modello Multimodal Embeddings. I valori predefiniti saranno adatti alla maggior parte dei casi d'uso.

Velocità di apprendimento – (frequenza di apprendimento min/max) – impostazione predefinita: 5,00E-05, min: 5,00E-08, max: 1
Dimensione del batch – dimensione effettiva del batch – impostazione predefinita: 576, min: 256, max: 9.216
Numero massimo di epoche – impostazione predefinita: "auto", min: 1, max: 100

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Amazon Titan Text Embeddings

Panoramica dei modelli Amazon Titan Image Generator G1