어댑터 추론 구성 요소를 사용하여 모델 미세 조정

Amazon SageMaker AI를 사용하면 처음부터 자체 모델을 생성할 필요 없이 사전 훈련된 파운데이션 모델을 호스팅할 수 있습니다. 그러나 비즈니스의 고유한 요구 사항에 맞게 범용 파운데이션 모델을 조정하려면 미세 조정된 버전의 파운데이션을 생성해야 합니다. 비용 효율적인 미세 조정 기법 중 하나는 저순위 적응(LoRA)입니다. LoRA의 원칙은 대규모 파운데이션 모델의 작은 부분만 업데이트하여 새 작업 또는 도메인에 적응해야 한다는 것입니다. LoRA 어댑터는 몇 개의 추가 어댑터 계층으로 기본 파운데이션 모델의 추론을 강화합니다.

SageMaker AI 추론 구성 요소를 사용하여 기본 파운데이션 모델을 호스팅하는 경우 어댑터 추론 구성 요소를 생성하여 LoRA 어댑터로 해당 기본 모델을 미세 조정할 수 있습니다. 어댑터 추론 구성 요소를 생성할 때 다음을 지정합니다.

어댑터 추론 구성 요소를 포함할 기본 추론 구성 요소입니다. 기본 추론 구성 요소에는 조정하려는 파운데이션 모델이 포함되어 있습니다. 어댑터 추론 구성 요소는 기본 추론 구성 요소에 할당한 컴퓨팅 리소스를 사용합니다.
Amazon S3에 LoRA 어댑터를 저장한 위치입니다.

어댑터 추론 구성 요소를 생성한 후 직접 호출할 수 있습니다. 이렇게 하면 SageMaker AI가 어댑터를 기본 모델과 결합하여 생성된 응답을 강화합니다.

시작하기 전 준비 사항

어댑터 추론 구성 요소를 생성하려면 먼저 다음 요구 사항을 충족해야 합니다.

조정할 파운데이션 모델이 포함된 기본 추론 구성 요소가 있습니다. 이 추론 구성 요소를 SageMaker AI 엔드포인트에 배포했습니다.

엔드포인트에 추론 구성 요소를 배포하는 방법에 대한 자세한 내용은 섹션을 참조하세요실시간 추론을 위한 모델 배포.
LoRA 어댑터 모델이 있고 모델 아티팩트를 Amazon S3에 tar.gz 파일로 저장했습니다. 어댑터 추론 구성 요소를 생성할 때 아티팩트의 S3 URI를 지정합니다.

다음 예제에서는 SDK for Python(Boto3)을 사용하여 어댑터 추론 구성 요소를 생성하고 호출합니다.

예 `create_inference_component`를 호출하여 어댑터 추론 구성 요소 생성

다음 예제에서는 어댑터 추론 구성 요소를 생성하고 기본 추론 구성 요소에 할당합니다.


sm_client.create_inference_component(
    InferenceComponentName = adapter_ic_name,
    EndpointName = endpoint_name,
    Specification={
        "BaseInferenceComponentName": base_inference_component_name,
        "Container": {
            "ArtifactUrl": adapter_s3_uri
        },
    },
)

자체 코드에서이 예제를 사용하는 경우 다음과 같이 자리 표시자 값을 바꿉니다.

adapter_ic_name - 어댑터 추론 구성 요소의 고유한 이름입니다.
endpoint_name - 기본 추론 구성 요소를 호스팅하는 엔드포인트의 이름입니다.
base_inference_component_name – 조정할 파운데이션 모델이 포함된 기본 추론 구성 요소의 이름입니다.
adapter_s3_uri – LoRA 어댑터 아티팩트가 있는 tar.gz 파일을 찾는 S3 URI입니다.

일반 추론 구성 요소의 코드와 유사한 코드를 사용하여 어댑터 추론 구성 요소를 생성합니다. 한 가지 차이점은 Specification 파라미터의 경우 ComputeResourceRequirements 키를 생략한다는 것입니다. 어댑터 추론 구성 요소를 호출하면 기본 추론 구성 요소에 의해 로드됩니다. 어댑터 추론 구성 요소는 기본 추론 구성 요소의 컴퓨팅 리소스를 사용합니다.

SDK for Python(Boto3)을 사용하여 추론 구성 요소를 생성하고 배포하는 방법에 대한 자세한 내용은 섹션을 참조하세요Python SDK를 사용하여 모델 배포.

어댑터 추론 구성 요소를 생성한 후 invoke_endpoint 요청에 이름을 지정하여 해당 구성 요소를 호출합니다.

예 `invoke_endpoint`를 호출하여 어댑터 추론 구성 요소 호출

다음 예제에서는 어댑터 추론 구성 요소를 호출합니다.


response = sm_rt_client.invoke_endpoint(
    EndpointName = endpoint_name,
    InferenceComponentName = adapter_ic_name,
    Body = json.dumps(
        {
            "inputs": prompt,
            "parameters": {"max_new_tokens": 100, "temperature":0.9}
        }
    ),
    ContentType = "application/json",
)

adapter_reponse = response["Body"].read().decode("utf8")["generated_text"]

자체 코드에서이 예제를 사용하는 경우 다음과 같이 자리 표시자 값을 바꿉니다.

endpoint_name - 기본 및 어댑터 추론 구성 요소를 호스팅하는 엔드포인트의 이름입니다.
adapter_ic_name - 어댑터 추론 구성 요소의 이름입니다.
프롬프트 - 추론 요청에 대한 프롬프트입니다.

SDK for Python(Boto3)을 사용하여 추론 구성 요소를 호출하는 방법에 대한 자세한 내용은 섹션을 참조하세요실시간 추론을 위한 모델 호출.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

문제 해결 가이드

서버리스 추론

어댑터 추론 구성 요소를 사용하여 모델 미세 조정

시작하기 전 준비 사항

예 create_inference_component를 호출하여 어댑터 추론 구성 요소 생성

예 invoke_endpoint를 호출하여 어댑터 추론 구성 요소 호출

예 `create_inference_component`를 호출하여 어댑터 추론 구성 요소 생성

예 `invoke_endpoint`를 호출하여 어댑터 추론 구성 요소 호출