아마존 Titan Multimodal Embeddings G1 모델 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

아마존 Titan Multimodal Embeddings G1 모델

Amazon Titan Foundation 모델은 대규모 데이터 세트를 대상으로 사전 학습되므로 강력한 범용 모델입니다. 있는 그대로 사용하거나, 대용량 데이터에 주석을 달지 않고도 특정 작업에 맞게 자체 데이터로 모델을 미세 조정하여 사용자 지정할 수 있습니다.

Titan 모델에는 임베딩, 텍스트 생성, 이미지 생성이라는 세 가지 유형이 있습니다.

두 Titan Multimodal Embeddings G1 가지 모델이 있습니다. Titan Multimodal Embeddings G1 모델은 텍스트 입력 (단어, 문구 또는 큰 텍스트 단위) 을 텍스트의 의미론적 의미를 포함하는 숫자 표현 (임베딩이라고 함) 으로 변환합니다. 이 모델은 텍스트를 생성하지 않지만 개인화 및 검색과 같은 응용 프로그램에는 유용합니다. 임베딩을 비교하면 이 모델은 단어 매칭보다 관련성이 높고 상황에 맞는 응답을 생성할 수 있습니다. Multimodal Embeddings G1 모델은 텍스트로 이미지를 검색하거나, 유사성을 찾기 위해 이미지로 검색하거나, 텍스트와 이미지의 조합으로 이미지를 검색하는 것과 같은 사용 사례에 사용됩니다. 입력 이미지 또는 텍스트를 동일한 시맨틱 공간에 있는 이미지와 텍스트의 의미론적 의미를 모두 포함하는 임베딩으로 변환합니다.

Titan Text 모델은 요약, 텍스트 생성, 분류, 개방형 QnA 및 정보 추출과 같은 작업을 위한 생성형 LLM입니다. 또한 다양한 프로그래밍 언어는 물론 표, JSON, .csv 파일 등의 리치 텍스트 형식을 비롯한 다양한 형식에 대해서도 학습합니다.

Amazon Titan 멀티모달 임베딩 모델 G1 - 텍스트 모델

  • 모델 IDamazon.titan-embed-image-v1

  • 최대 입력 텍스트 토큰 — 8,192개

  • 언어 — 영어 (25개 이상의 언어 미리 보기)

  • 최대 입력 이미지 크기 - 5MB

  • 출력 벡터 크기 - 1,024(기본값), 384, 256

  • 추론 유형 - 온디맨드, 프로비저닝된 처리량

  • 지원되는 사용 사례 — RAG, 문서 검색, 순위 조정, 분류 등

Titan Text Embeddings V1은 최대 8,192개의 토큰이 포함된 비어 있지 않은 문자열을 입력으로 받아 1,024차원 임베딩을 반환합니다. 영문 문자 대 토큰 비율은 토큰당 4.6자입니다. RAG 사용 사례에 대한 참고 사항: Titan Text Embeddings V2는 최대 8,192개의 토큰을 수용할 수 있지만 문서를 논리적 세그먼트 (예: 단락 또는 섹션) 로 분할하는 것이 좋습니다.

임베딩 길이

사용자 지정 임베딩 길이 설정은 선택 사항입니다. 임베딩 기본 길이는 1,024자이며 대부분의 사용 사례에 적합합니다. 임베딩 길이는 256자, 384자 또는 1,024자로 설정할 수 있습니다. 임베딩 크기가 클수록 응답이 더 디테일해지지만 계산 시간도 늘어납니다. 임베딩 길이가 짧을수록 디테일은 떨어지지만 응답 시간이 향상됩니다.

# EmbeddingConfig Shape { 'outputEmbeddingLength': int // Optional, One of: [256, 512, 1024], default: 1024 } # Updated API Payload Example body = json.dumps({ "inputText": "hi", "inputImage": image_string, "embeddingConfig": { "outputEmbeddingLength": 256 } })

미세 조정

  • Amazon Titan Multimodal Embeddings G1 미세 조정에 대한 입력은 이미지-텍스트 쌍입니다.

  • 이미지 형식: PNG, JPEG

  • 입력 이미지 크기 제한 - 5MB

  • 이미지 크기: 최소 - 128픽셀, 최대- 4,096픽셀

  • 캡션의 최대 토큰 수: 128

  • 훈련 데이터 세트 크기 범위: 1,000~500,000

  • 검증 데이터 세트 크기 범위: 8~50,000

  • 캡션 길이(문자 수): 0~2,560

  • 이미지당 최대 총 픽셀 수: 2,048*2,048*3

  • 가로 세로 비율(w/h): 최소 - 0.25, 최대 - 4

데이터 세트 준비

훈련 데이터 세트의 경우 여러 개의 JSON 라인이 포함된 .jsonl 파일을 생성합니다. 각 JSON 라인에는 Sagemaker 증강 매니페스트 형식과 유사한 image-refcaption 속성이 모두 포함되어 있습니다. 검증 데이터 세트가 필요합니다. 현재 자동 캡션 기능은 지원되지 않습니다.

{"image-ref": "s3://bucket-1/folder1/0001.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder2/0002.png", "caption": "some text"} {"image-ref": "s3://bucket-1/folder1/0003.png", "caption": "some text"}

훈련 데이터 세트 및 검증 데이터 세트 두 가지 모두의 경우 여러 개의 JSON 라인이 포함된 .jsonl 파일을 생성합니다.

Amazon S3 경로는 Amazon Bedrock 서비스 역할에 IAM 정책을 연결하여 Amazon Bedrock이 데이터에 액세스할 수 있도록 권한을 제공한 폴더와 동일한 폴더에 있어야 합니다. 훈련 데이터에 IAM 정책을 부여하는 방법에 대한 자세한 내용은 훈련 데이터에 대한 사용자 지정 작업 액세스 권한 부여를 참조하세요.

하이퍼파라미터

Multimodal Embeddings 모델 하이퍼파라미터에 맞게 이 값을 조정할 수 있습니다. 기본값은 대부분의 사용 사례에 적합합니다.

  • 학습률 - (최소/최대 학습률) - 기본값: 5.00E-05, 최소: 5.00E-08, 최대: 1

  • 배치 크기 - 유효 배치 크기 - 기본값: 576, 최소: 256, 최대: 9,216

  • 최대 에포크 - 기본값: ‘자동’, 최소: 1, 최대: 100