FlashAttention 지원

FlashAttention 지원은 분산 변환기 모델에만 적용할 수 있는 라이브러리 기능이며 이는 모델 병렬 훈련을 위해 smp.DistributedModel()로 래핑된 변환기 모델입니다. 이 기능은 텐서 병렬 처리과도 호환됩니다.

FlashAttention 라이브러리는 attention_head_size가 8의 배수이면서 128 미만의 값으로 설정된 경우에만 모델을 지원합니다. 따라서 분산 변환기를 훈련하고 FlashAttention이 제대로 작동하는지 확인할 때는 어텐션 헤드 크기가 요구 사항을 준수하도록 파라미터를 조정해야 합니다. 자세한 내용은 FlashAttention GitHub 리포지토리의 설치 및 기능을 참조하세요.

예를 들어 hidden_width=864 및 num_heads=48을 사용하여 변환기 모델을 구성한다고 가정해 보겠습니다. FlashAttention 제목 크기는 attention_head_size = hidden_width / num_heads = 864 / 48 = 18과 같이 계산됩니다. FlashAttention을 활성화하려면 num_heads 파라미터를 54로 조정하여 attention_head_size = hidden_width / num_heads = 864 / 54 = 16이 8의 배수가 되도록 조정해야 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 병렬 처리를 사용한 FP16 훈련

모델 병렬 처리를 사용하여 SageMaker 분산 훈련 작업 실행