Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Compatibilidad con la SMDDP biblioteca optimizada para la infraestructura AWS
Puede utilizar la biblioteca de paralelismo de SageMaker modelos v2 (SMPv2) junto con la biblioteca de paralelismo de datos SageMaker distribuidos (SMDDP), que ofrece una operación de comunicación AllGather colectiva optimizada para la infraestructura. AWS En la formación distribuida, las operaciones de comunicación colectiva están diseñadas para sincronizar a varios GPU trabajadores e intercambiar información entre ellos. AllGather
es una de las principales operaciones de comunicación colectiva que se suele utilizar en el paralelismo de datos fragmentados. Para obtener más información sobre la SMDDP AllGather
operación, consulte Operación AllGather colectiva SMDDP Optimizar estas operaciones de comunicación colectiva contribuiría directamente a una end-to-end formación más rápida sin efectos secundarios en la convergencia.
nota
La SMDDP biblioteca admite instancias P4 y P4de (consulte también Marcos y tipos Regiones de AWS de instancias compatibles junto a la SMDDP biblioteca).
La SMDDP biblioteca se integra de forma nativa PyTorch a través de la capa de grupos de procesos.
Para activar SMDDP y utilizar su AllGather
funcionamiento, debe añadir dos líneas de código a su guion de entrenamiento como parte de. Paso 1: Adapta tu guion PyTorch FSDP de entrenamiento Ten en cuenta que primero debes inicializar PyTorch Distributed con el SMDDP backend y, a continuación, ejecutar la SMP inicialización.
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
SageMaker Los contenedores Framework