에 대한 지원 FlashAttention - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

에 대한 지원 FlashAttention

지원 (Support for) FlashAttention 은 분산 변압기 모델에만 적용할 수 있는 라이브러리 기능으로, 모델 병렬 학습을 smp.DistributedModel()위해 Transformer 모델이 포함되어 있습니다. 이 기능은 텐서 병렬 처리과도 호환됩니다.

FlashAttention라이브러리는 8의 배수 및 128 미만의 값으로 설정된 경우에만 attention_head_size 모델을 지원합니다. 따라서 분산 트랜스포머를 훈련시키고 제대로 FlashAttention 작동하는지 확인할 때는 어텐션 헤드 크기가 요구 사항을 준수하도록 파라미터를 조정해야 합니다. 자세한 내용은 FlashAttention GitHub저장소의 설치 및 기능을 참조하십시오.

예를 들어 hidden_width=864num_heads=48을 사용하여 변환기 모델을 구성한다고 가정해 보겠습니다. 의 헤드 FlashAttention 크기는 다음과 같이 계산됩니다attention_head_size = hidden_width / num_heads = 864 / 48 = 18. FlashAttention활성화하려면 num_heads 54 파라미터를 8의 배수가 attention_head_size = hidden_width / num_heads = 864 / 54 = 16 되도록 조정해야 합니다.