Compatibilidad con la SMDDP biblioteca optimizada para la infraestructura AWS - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Compatibilidad con la SMDDP biblioteca optimizada para la infraestructura AWS

Puede utilizar la biblioteca de paralelismo de SageMaker modelos v2 (SMPv2) junto con la biblioteca de paralelismo de datos SageMaker distribuidos (SMDDP), que ofrece una operación de comunicación AllGather colectiva optimizada para la infraestructura. AWS En la formación distribuida, las operaciones de comunicación colectiva están diseñadas para sincronizar a varios GPU trabajadores e intercambiar información entre ellos. AllGatheres una de las principales operaciones de comunicación colectiva que se suele utilizar en el paralelismo de datos fragmentados. Para obtener más información sobre la SMDDP AllGather operación, consulte Operación AllGather colectiva SMDDP Optimizar estas operaciones de comunicación colectiva contribuiría directamente a una end-to-end formación más rápida sin efectos secundarios en la convergencia.

nota

La SMDDP biblioteca admite instancias P4 y P4de (consulte también Marcos y tipos Regiones de AWS de instancias compatibles junto a la SMDDP biblioteca).

La SMDDP biblioteca se integra de forma nativa PyTorch a través de la capa de grupos de procesos. Para usar la SMDDP biblioteca, solo necesita agregar dos líneas de código a su script de entrenamiento. Es compatible con cualquier marco de entrenamiento, como SageMaker Model Parallelism Library y PyTorch FSDP. DeepSpeed

Para activar SMDDP y utilizar su AllGather funcionamiento, debe añadir dos líneas de código a su guion de entrenamiento como parte de. Paso 1: Adapta tu guion PyTorch FSDP de entrenamiento Ten en cuenta que primero debes inicializar PyTorch Distributed con el SMDDP backend y, a continuación, ejecutar la SMP inicialización.

import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()

SageMaker Los contenedores Framework para PyTorch (consulte también Marcos compatibles y Regiones de AWS la SMP versión 2 y Marcos y tipos Regiones de AWS de instancias compatibles la SMDDP biblioteca) vienen preempaquetados con el SMP binario y el binario. SMDDP Para obtener más información sobre la SMDDP biblioteca, consulteRealice un entrenamiento distribuido con la biblioteca de paralelismo de datos SageMaker distribuidos.