아마존 Titan Multimodal Embeddings G1 모델

Amazon Titan Foundation 모델은 대규모 데이터 세트를 대상으로 사전 학습되므로 강력한 범용 모델입니다. 있는 그대로 사용하거나, 대용량 데이터에 주석을 달지 않고도 특정 작업에 맞게 자체 데이터로 모델을 미세 조정하여 사용자 지정할 수 있습니다.

Titan 모델에는 임베딩, 텍스트 생성, 이미지 생성이라는 세 가지 유형이 있습니다.

두 Titan Multimodal Embeddings G1 가지 모델이 있습니다. Titan Multimodal Embeddings G1 모델은 텍스트 입력 (단어, 문구 또는 큰 텍스트 단위) 을 텍스트의 의미론적 의미를 포함하는 숫자 표현 (임베딩이라고 함) 으로 변환합니다. 이 모델은 텍스트를 생성하지 않지만 개인화 및 검색과 같은 응용 프로그램에는 유용합니다. 임베딩을 비교하면 이 모델은 단어 매칭보다 관련성이 높고 상황에 맞는 응답을 생성할 수 있습니다. Multimodal Embeddings G1 모델은 텍스트로 이미지를 검색하거나, 유사성을 찾기 위해 이미지로 검색하거나, 텍스트와 이미지의 조합으로 이미지를 검색하는 것과 같은 사용 사례에 사용됩니다. 입력 이미지 또는 텍스트를 동일한 시맨틱 공간에 있는 이미지와 텍스트의 의미론적 의미를 모두 포함하는 임베딩으로 변환합니다.

Titan Text 모델은 요약, 텍스트 생성, 분류, 개방형 QnA 및 정보 추출과 같은 작업을 위한 생성형 LLM입니다. 또한 다양한 프로그래밍 언어는 물론 표, JSON, .csv 파일 등의 리치 텍스트 형식을 비롯한 다양한 형식에 대해서도 학습합니다.

Amazon Titan 멀티모달 임베딩 모델 G1 - 텍스트 모델

모델 ID – amazon.titan-embed-image-v1
최대 입력 텍스트 토큰 — 8,192개
언어 — 영어 (25개 이상의 언어 미리 보기)
최대 입력 이미지 크기 - 5MB
출력 벡터 크기 - 1,024(기본값), 384, 256
추론 유형 - 온디맨드, 프로비저닝된 처리량
지원되는 사용 사례 — RAG, 문서 검색, 순위 조정, 분류 등

Titan Text Embeddings V1은 최대 8,192개의 토큰이 포함된 비어 있지 않은 문자열을 입력으로 받아 1,024차원 임베딩을 반환합니다. 영문 문자 대 토큰 비율은 토큰당 4.6자입니다. RAG 사용 사례에 대한 참고 사항: Titan Text Embeddings V2는 최대 8,192개의 토큰을 수용할 수 있지만 문서를 논리적 세그먼트 (예: 단락 또는 섹션) 로 분할하는 것이 좋습니다.

임베딩 길이

사용자 지정 임베딩 길이 설정은 선택 사항입니다. 임베딩 기본 길이는 1,024자이며 대부분의 사용 사례에 적합합니다. 임베딩 길이는 256자, 384자 또는 1,024자로 설정할 수 있습니다. 임베딩 크기가 클수록 응답이 더 디테일해지지만 계산 시간도 늘어납니다. 임베딩 길이가 짧을수록 디테일은 떨어지지만 응답 시간이 향상됩니다.



    # EmbeddingConfig Shape
    {
     'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024
    }
    
    # Updated API Payload Example
    body = json.dumps({
     "inputText": "hi",
     "inputImage": image_string,
     "embeddingConfig": { 
     "outputEmbeddingLength": 256
     }
    })

미세 조정

Amazon Titan Multimodal Embeddings G1 미세 조정에 대한 입력은 이미지-텍스트 쌍입니다.
이미지 형식: PNG, JPEG
입력 이미지 크기 제한 - 5MB
이미지 크기: 최소 - 128픽셀, 최대- 4,096픽셀
캡션의 최대 토큰 수: 128
훈련 데이터 세트 크기 범위: 1,000~500,000
검증 데이터 세트 크기 범위: 8~50,000
캡션 길이(문자 수): 0~2,560
이미지당 최대 총 픽셀 수: 2,048*2,048*3
가로 세로 비율(w/h): 최소 - 0.25, 최대 - 4

데이터 세트 준비

훈련 데이터 세트의 경우 여러 개의 JSON 라인이 포함된 .jsonl 파일을 생성합니다. 각 JSON 라인에는 Sagemaker 증강 매니페스트 형식과 유사한 image-ref 및 caption 속성이 모두 포함되어 있습니다. 검증 데이터 세트가 필요합니다. 현재 자동 캡션 기능은 지원되지 않습니다.



   {"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"}
   {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

훈련 데이터 세트 및 검증 데이터 세트 두 가지 모두의 경우 여러 개의 JSON 라인이 포함된 .jsonl 파일을 생성합니다.

Amazon S3 경로는 Amazon Bedrock 서비스 역할에 IAM 정책을 연결하여 Amazon Bedrock이 데이터에 액세스할 수 있도록 권한을 제공한 폴더와 동일한 폴더에 있어야 합니다. 훈련 데이터에 IAM 정책을 부여하는 방법에 대한 자세한 내용은 훈련 데이터에 대한 사용자 지정 작업 액세스 권한 부여를 참조하세요.

하이퍼파라미터

Multimodal Embeddings 모델 하이퍼파라미터에 맞게 이 값을 조정할 수 있습니다. 기본값은 대부분의 사용 사례에 적합합니다.

학습률 - (최소/최대 학습률) - 기본값: 5.00E-05, 최소: 5.00E-08, 최대: 1
배치 크기 - 유효 배치 크기 - 기본값: 576, 최소: 256, 최대: 9,216
최대 에포크 - 기본값: ‘자동’, 최소: 1, 최대: 100

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Titan Text Embeddings

Amazon Titan Image Generator G1