Autopilot에서 대규모 언어 모델을 미세 조정하기 위한 지표 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Autopilot에서 대규모 언어 모델을 미세 조정하기 위한 지표

Autopilot은 데이터 세트를 사용하여 대상 언어 모델(LLM)을 직접 미세 조정하여 기본 목표 지표인 교차 엔트로피 손실을 개선합니다.

교차 엔트로피 손실은 예측 확률 분포와 훈련 데이터에 있는 단어의 실제 분포 간의 차이를 평가하는 데 널리 사용되는 지표입니다. 교차 엔트로피 손실을 최소화함으로써 모델은 특히 텍스트 생성과 관련된 작업에서 더 정확하고 상황에 맞는 예측을 할 수 있도록 학습합니다.

LLM을 미세 조정한 후에는 다양한 점수를 사용하여 생성된 텍스트의 품질을 평가할 수 있습니다. ROUGE 또한 평가 프로세스의 일부로 Perplexity와 교차 엔트로피 훈련 및 검증 손실을 분석할 수 있습니다.

  • Perplexity 손실은 모델이 텍스트 시퀀스에서 다음 단어를 얼마나 잘 예측할 수 있는지를 측정하며, 값이 낮을수록 언어와 문맥을 더 잘 이해함을 나타냅니다.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)자연어 처리 (NLP) 및 기계 학습 분야에서 텍스트 요약 또는 텍스트 생성과 같은 기계 생성 텍스트의 품질을 평가하는 데 사용되는 일련의 지표입니다. 주로 생성된 텍스트와 검증 데이터셋의 실측 참조 (사람이 작성한) 텍스트 간의 유사성을 평가합니다. ROUGE측정값은 시스템에서 생성한 텍스트와 참조 텍스트에서 n-gram (연속된 단어 시퀀스) 의 정밀도 및 재현율을 포함하여 텍스트 유사성의 다양한 측면을 평가하도록 설계되었습니다. 목표는 모델이 참조 텍스트에 있는 정보를 얼마나 잘 캡처하는지 평가하는 것입니다.

    사용되는 n-그램의 유형과 ROUGE 평가 대상 텍스트 품질의 특정 측면에 따라 다양한 메트릭이 있습니다.

    다음 목록에는 오토파일럿에서 대규모 언어 모델을 미세 조정한 후 사용할 수 있는 ROUGE 지표의 이름과 설명이 나와 있습니다.

    ROUGE-1, ROUGE-2

    ROUGE-N기본 ROUGE 지표는 시스템에서 생성한 텍스트와 참조 텍스트 간의 n-그램 중첩을 측정합니다. ROUGE-N시스템 생성 텍스트가 참조 텍스트의 n-그램을 얼마나 잘 캡처하는지 평가하기 위해 n (여기 1 또는2) 의 다른 값으로 조정할 수 있습니다.

    ROUGE-L

    ROUGE-L(ROUGE-Longest공통 서브시퀀스) 시스템에서 생성한 텍스트와 참조 텍스트 사이의 가장 긴 공통 서브시퀀스를 계산합니다. 이 변형은 내용 겹침 외에도 단어 순서를 고려합니다.

    ROUGE-L-Sum

    ROUGE-L-SUM(요약에 사용되는 가장 긴 공통 서브시퀀스) 는 텍스트 요약 시스템의 평가를 위해 설계되었습니다. 컴퓨터에서 생성한 요약과 참조 요약 사이에서 가장 긴 공통 하위 시퀀스를 측정하는 데 중점을 둡니다. ROUGE-L-SUM텍스트 요약 작업에서 중요한 텍스트의 단어 순서를 고려합니다.