지속적 사전 학습(CPT) - Amazon Nova

지속적 사전 학습(CPT)

지속적 사전 학습(CPT)은 기존에 사전 학습된 언어 모델의 일반적인 언어 이해 능력을 유지하면서 새로운 도메인 특화 데이터로 추가 학습하여 모델의 기능을 확장하는 기법입니다. 미세 조정과 달리, CPT는 원래 사전 학습에서 사용된 비지도 학습 목표(예: 마스킹된 언어 모델링, 인과적 언어 모델링)를 그대로 사용하며 모델의 아키텍처를 변경하지 않습니다.

CPT는 레이블이 지정되지 않은 대량의 도메인 특화 데이터(예: 의료 또는 금융 텍스트)를 보유한 경우, 모델의 일반적 능력은 유지하면서 특정 도메인 성능을 향상시키고 싶은 경우에 유용합니다. 이 접근 방식은 특정 도메인에서의 제로샷 및 퓨샷 성능을 향상시키며, 광범위한 작업별 미세 조정이 필요하지 않습니다.

Amazon Nova 모델 사용자 지정에서 CPT를 사용하는 방법에 대한 자세한 지침은 SageMaker 사용 설명서의 지속적 사전 학습(CPT) 섹션을 참조하세요.