Referensi SageMaker model parallel library v2 - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Referensi SageMaker model parallel library v2

Berikut ini adalah referensi untuk SageMaker model parallel library v2 (SMP v2).

Parameter konfigurasi fitur inti SMP v2

Berikut ini adalah daftar lengkap parameter untuk mengaktifkan dan mengkonfigurasiFitur inti dari perpustakaan paralelisme SageMaker model v2. Ini harus ditulis dalam format JSON dan diteruskan ke PyTorch estimator di SDK SageMaker Python atau disimpan sebagai file JSON untuk. SageMaker HyperPod

{ "hybrid_shard_degree": Integer, "sm_activation_offloading": Boolean, "activation_loading_horizon": Integer, "fsdp_cache_flush_warnings": Boolean, "allow_empty_shards": Boolean, "tensor_parallel_degree": Integer, "expert_parallel_degree": Integer, "random_seed": Integer }
  • hybrid_shard_degree(Integer) - Menentukan derajat paralelisme sharded. Nilai harus berupa bilangan bulat antara 0 danworld_size. Nilai default-nya adalah 0.

    • Jika disetel ke0, itu kembali ke PyTorch implementasi asli dan API dalam skrip saat tensor_parallel_degree 1. Jika tidak, itu menghitung kemungkinan terbesar hybrid_shard_degree berdasarkan tensor_parallel_degree danworld_size. Saat kembali ke kasus penggunaan PyTorch FSDP asli, jika FULL_SHARD strategi yang Anda gunakan, itu akan terbagi di seluruh cluster GPU. Jika HYBRID_SHARD atau _HYBRID_SHARD_ZERO2 apakah strateginya, itu setara hybrid_shard_degree dengan 8. Ketika paralelisme tensor diaktifkan, itu pecah berdasarkan revisi. hybrid_shard_degree

    • Jika disetel ke1, itu kembali ke PyTorch implementasi asli dan API untuk NO_SHARD dalam skrip saat tensor_parallel_degree 1. Jika tidak, itu setara dengan NO_SHARD dalam grup paralel tensor tertentu.

    • Jika disetel ke bilangan bulat antara 2 danworld_size, sharding terjadi di seluruh jumlah GPU yang ditentukan. Jika Anda tidak mengatur sharding_strategy skrip FSDP, itu akan diganti menjadi. HYBRID_SHARD Jika Anda mengatur_HYBRID_SHARD_ZERO2, yang sharding_strategy Anda tentukan digunakan.

  • sm_activation_offloading(Boolean) - Menentukan apakah akan mengaktifkan implementasi pembongkaran aktivasi SMP. JikaFalse, pembongkaran menggunakan PyTorch implementasi asli. JikaTrue, ia menggunakan implementasi pembongkaran aktivasi SMP. Anda juga perlu menggunakan PyTorch aktivasi offload wrapper (torch.distributed.algorithms._checkpoint.checkpoint_wrapper.offload_wrapper) dalam skrip Anda. Untuk mempelajari selengkapnya, lihat Pembongkaran aktivasi. Nilai default-nya adalah True.

  • activation_loading_horizon(Integer) - Bilangan bulat yang menentukan jenis cakrawala pembongkaran aktivasi untuk FSDP. Ini adalah jumlah maksimum lapisan checkpoint atau offloaded yang inputnya dapat berada di memori GPU secara bersamaan. Untuk mempelajari selengkapnya, lihat Pembongkaran aktivasi. Nilai masukan harus berupa bilangan bulat positif. Nilai default-nya adalah 2.

  • fsdp_cache_flush_warnings(Boolean) - Mendeteksi dan memperingatkan jika cache flush terjadi di manajer PyTorch memori, karena mereka dapat menurunkan kinerja komputasi. Nilai default-nya adalah True.

  • allow_empty_shards(Boolean) — Apakah akan mengizinkan pecahan kosong saat sharding tensor jika tensor tidak habis dibagi. Ini adalah perbaikan eksperimental untuk crash selama checkpointing dalam skenario tertentu. Menonaktifkan ini kembali ke perilaku aslinya PyTorch . Nilai default-nya adalah False.

  • tensor_parallel_degree(Integer) - Menentukan derajat paralelisme tensor. Nilai harus antara 1 danworld_size. Nilai default-nya adalah 1. Melewati nilai yang lebih besar dari 1 tidak memungkinkan paralelisme tensor secara otomatis. Anda juga perlu menggunakan torch.sagemaker.transform API untuk membungkus model dalam skrip pelatihan Anda. Untuk mempelajari selengkapnya, lihat Paralelisme tensor.

  • expert_parallel_degree(Integer) - Menentukan tingkat paralelisme ahli. Nilai harus antara 1 danworld_size. Nilai default-nya adalah 1. Melewati nilai yang lebih besar dari 1 tidak mengaktifkan paralelisme ahli secara otomatis; pastikan Anda membungkus model MoE dengan torch.sagemaker.transform API dalam skrip pelatihan Anda.

  • random_seed(Integer) — Nomor benih untuk operasi acak dalam modul terdistribusi oleh paralelisme tensor SMP atau paralelisme ahli. Benih ini akan ditambahkan ke peringkat tensor-paralel atau paralel ahli untuk menetapkan benih aktual untuk setiap peringkat. Ini unik untuk setiap peringkat tensor-paralel dan paralel ahli. SMP v2 memastikan bahwa nomor acak yang dihasilkan di seluruh peringkat tensor-paralel dan paralel ahli masing-masing cocok dengan kasus dan. non-tensor-parallelism non-expert-parallelism

Referensi untuk paket SMP v2 torch.sagemaker

Bagian ini adalah referensi untuk torch.sagemaker paket yang disediakan oleh SMP v2.

torch.sagemaker.delayed_param.DelayedParamIniter

API untuk diterapkan Inisialisasi parameter tertunda ke PyTorch model.

class torch.sagemaker.delayed_param.DelayedParamIniter( model: nn.Module, init_method_using_config : Callable = None, verbose: bool = False, )

Parameter

  • model(nn.Module) — PyTorch Model untuk membungkus dan menerapkan fungsionalitas inisialisasi parameter tertunda SMP v2.

  • init_method_using_config(Dapat dipanggil) — Jika Anda menggunakan implementasi paralel tensor SMP v2 atau didukungModel Hugging Face Transformer kompatibel dengan paralelisme tensor SMP, pertahankan parameter ini pada nilai default, yaitu. None Secara default, DelayedParamIniter API mengetahui cara menginisialisasi model yang diberikan dengan benar. Untuk model lain, Anda perlu membuat fungsi inisialisasi parameter kustom dan menambahkannya ke skrip Anda. Cuplikan kode berikut adalah init_method_using_config fungsi default yang diterapkan SMP v2 untuk. Model Hugging Face Transformer kompatibel dengan paralelisme tensor SMP Gunakan cuplikan kode berikut sebagai referensi untuk membuat fungsi konfigurasi inisialisasi Anda sendiri, menambahkannya ke skrip Anda, dan meneruskannya ke init_method_using_config parameter API SMP. DelayedParamIniter

    from torch.sagemaker.utils.module_utils import empty_module_params, move_buffers_to_device # Define a custom init config function. def custom_init_method_using_config(module): d = torch.cuda.current_device() empty_module_params(module, device=d) if isinstance(module, (nn.Linear, Conv1D)): module.weight.data.normal_(mean=0.0, std=config.initializer_range) if module.bias is not None: module.bias.data.zero_() elif isinstance(module, nn.Embedding): module.weight.data.normal_(mean=0.0, std=config.initializer_range) if module.padding_idx is not None: module.weight.data[module.padding_idx].zero_() elif isinstance(module, nn.LayerNorm): module.weight.data.fill_(1.0) module.bias.data.zero_() elif isinstance(module, LlamaRMSNorm): module.weight.data.fill_(1.0) move_buffers_to_device(module, device=d) delayed_initer = DelayedParamIniter(model, init_method_using_config=custom_init_method_using_config)

    Untuk informasi selengkapnya tentang torch.sagemaker.module_util fungsi dalam cuplikan kode sebelumnya, lihat. torch.sagemakerfungsi dan properti util

  • verbose(Boolean) - Apakah akan mengaktifkan logging yang lebih rinci selama inisialisasi dan validasi. Nilai default-nya adalah False.

Metode

  • get_param_init_fn()— Mengembalikan fungsi inisialisasi parameter yang dapat Anda lewatkan ke param_init_fn argumen kelas pembungkus PyTorch FSDP.

  • get_post_param_init_fn()— Mengembalikan fungsi inisialisasi parameter yang dapat Anda lewatkan ke post_param_init_fn argumen kelas pembungkus PyTorch FSDP. Ini diperlukan ketika Anda telah mengikat bobot dalam model. Model harus menerapkan metodetie_weights. Untuk informasi selengkapnya, lihat Catatan tentang bobot terikatInisialisasi parameter tertunda.

  • count_num_params(module: nn.Module, *args: Tuple[nn.Parameter]) — Melacak berapa banyak parameter yang diinisialisasi oleh fungsi inisialisasi parameter. Ini membantu menerapkan validate_params_and_buffers_inited metode berikut. Anda biasanya tidak perlu memanggil fungsi ini secara eksplisit, karena metode ini secara implisit memanggil validate_params_and_buffers_inited metode ini di backend.

  • validate_params_and_buffers_inited(enabled: bool=True) — Ini adalah manajer konteks yang membantu memvalidasi bahwa jumlah parameter yang diinisialisasi cocok dengan jumlah total parameter dalam model. Ini juga memvalidasi bahwa semua parameter dan buffer sekarang ada di perangkat GPU, bukan perangkat meta. Ini memunculkan AssertionErrors jika kondisi ini tidak terpenuhi. Pengelola konteks ini hanya opsional dan Anda tidak diharuskan menggunakan pengelola konteks ini untuk menginisialisasi parameter.

torch.sagemaker.moe.moe_config.MoEConfig

Kelas konfigurasi untuk menyiapkan implementasi SMP Mixture-of-Experts (MoE). Anda dapat menentukan nilai konfigurasi MoE melalui kelas ini dan meneruskannya ke panggilan torch.sagemaker.transformAPI. Untuk mempelajari lebih lanjut tentang penggunaan kelas ini untuk melatih model MoE, lihatParalelisme ahli.

class torch.sagemaker.moe.moe_config.MoEConfig( smp_moe=True, random_seed=12345, moe_load_balancing="sinkhorn", global_token_shuffle=False, moe_all_to_all_dispatcher=True, moe_aux_loss_coeff=0.001, moe_z_loss_coeff=0.001 )
  • smp_moe(Boolean) - Apakah akan menggunakan implementasi SMP dari MoE. Nilai default-nya adalah True.

  • random_seed(Integer) - Nomor benih untuk operasi acak dalam modul terdistribusi paralel ahli. Benih ini akan ditambahkan ke peringkat paralel ahli untuk menetapkan benih aktual untuk setiap peringkat. Ini unik untuk setiap peringkat paralel ahli. Nilai default-nya adalah 12345.

  • moe_load_balancing(String) - Tentukan jenis load balancing dari router MoE. Opsi yang valid adalahaux_loss,sinkhorn,balanced, dannone. Nilai default-nya adalah sinkhorn.

  • global_token_shuffle(Boolean) - Apakah akan mengacak token di seluruh peringkat EP dalam grup EP yang sama. Nilai default-nya adalah False.

  • moe_all_to_all_dispatcher(Boolean) - Apakah akan menggunakan all-to-all dispatcher untuk komunikasi di MoE. Nilai default-nya adalah True.

  • moe_aux_loss_coeff(Float) - Koefisien untuk kerugian penyeimbangan beban tambahan. Nilai default-nya adalah 0.001.

  • moe_z_loss_coeff(Float) - Koefisien untuk z-loss. Nilai default-nya adalah 0.001.

torch.sagemaker.nn.attn.FlashSelfAttention

API untuk digunakan FlashAttention dengan SMP v2.

class torch.sagemaker.nn.attn.FlashSelfAttention( attention_dropout_prob: float = 0.0, scale: Optional[float] = None, triton_flash_attention: bool = False, use_alibi: bool = False, )

Parameter

  • attention_dropout_prob(float) — Probabilitas putus sekolah untuk diterapkan pada perhatian. Nilai default-nya adalah 0.0.

  • scale(float) — Jika lulus, faktor skala ini akan diterapkan untuk softmax. Jika disetel ke None (yang juga merupakan nilai default), faktor skalanya adalah1 / sqrt(attention_head_size). Nilai default-nya adalah None.

  • triton_flash_attention(bool) — Jika diteruskan, implementasi Triton dari perhatian flash akan digunakan. Ini diperlukan untuk mendukung Perhatian dengan Bias Linear (ALiBi) (lihat use_alibi parameter berikut). Versi kernel ini tidak mendukung putus sekolah. Nilai default-nya adalah False.

  • use_alibi(bool) — Jika diteruskan, ini memungkinkan Perhatian dengan Bias Linear (ALiBi) menggunakan topeng yang disediakan. Saat menggunakan ALiBi, perlu masker perhatian yang disiapkan sebagai berikut. Nilai default-nya adalah False.

    def generate_alibi_attn_mask(attention_mask, batch_size, seq_length, num_attention_heads, alibi_bias_max=8): device, dtype = attention_mask.device, attention_mask.dtype alibi_attention_mask = torch.zeros( 1, num_attention_heads, 1, seq_length, dtype=dtype, device=device ) alibi_bias = torch.arange(1 - seq_length, 1, dtype=dtype, device=device).view( 1, 1, 1, seq_length ) m = torch.arange(1, num_attention_heads + 1, dtype=dtype, device=device) m.mul_(alibi_bias_max / num_attention_heads) alibi_bias = alibi_bias * (1.0 / (2 ** m.view(1, num_attention_heads, 1, 1))) alibi_attention_mask.add_(alibi_bias) alibi_attention_mask = alibi_attention_mask[..., :seq_length, :seq_length] if attention_mask is not None and attention_mask.bool().any(): alibi_attention_mask.masked_fill( attention_mask.bool().view(batch_size, 1, 1, seq_length), float("-inf") ) return alibi_attention_mask

Metode

  • forward(self, qkv, attn_mask=None, causal=False, cast_dtype=None, layout="b h s d")- Fungsi PyTorch modul reguler. Ketika a module(x) dipanggil, SMP menjalankan fungsi ini secara otomatis.

    • qkvtorch.Tensor dari bentuk berikut: (batch_size x seqlen x (3 x num_heads) x head_size) atau(batch_size, (3 x num_heads) x seqlen x head_size), tupel yang torch.Tensors masing-masing mungkin berbentuk(batch_size x seqlen x num_heads x head_size), atau(batch_size x num_heads x seqlen x head_size). Arg tata letak yang sesuai harus diteruskan berdasarkan bentuknya.

    • attn_masktorch.Tensordari bentuk berikut(batch_size x 1 x 1 x seqlen). Untuk mengaktifkan parameter topeng perhatian ini, diperlukan triton_flash_attention=True danuse_alibi=True. Untuk mempelajari cara membuat topeng perhatian menggunakan metode ini, lihat contoh kode diFlashAttention. Nilai default-nya adalah None.

    • causal— Ketika diatur keFalse, yang merupakan nilai default dari argumen, tidak ada topeng diterapkan. Ketika diatur keTrue, forward metode ini menggunakan topeng segitiga bawah standar. Nilai default-nya adalah False.

    • cast_dtype— Ketika diatur ke tertentudtype, itu melemparkan qkv tensor ke itu sebelumnya. dtype attn Ini berguna untuk implementasi seperti model Hugging Face Transformer GPT-Neox, yang memiliki dan dengan after rotary embeddings. q k fp32 Jika disetel keNone, tidak ada pemeran yang diterapkan. Nilai default-nya adalah None.

    • layout(string) - Nilai yang tersedia adalah b h s d ataub s h d. Ini harus diatur ke tata letak qkv tensor yang dilewati, sehingga transformasi yang tepat dapat diterapkan. attn Nilai default-nya adalah b h s d.

Pengembalian

Single torch.Tensor dengan bentuk(batch_size x num_heads x seq_len x head_size).

torch.sagemaker.nn.attn.FlashGroupedQueryAttention

API untuk digunakan FlashGroupedQueryAttention dengan SMP v2. Untuk mempelajari lebih lanjut tentang penggunaan API ini, lihatGunakan FlashAttention kernel untuk perhatian kueri yang dikelompokkan.

class torch.sagemaker.nn.attn.FlashGroupedQueryAttention( attention_dropout_prob: float = 0.0, scale: Optional[float] = None, )

Parameter

  • attention_dropout_prob(float) — Probabilitas putus sekolah untuk diterapkan pada perhatian. Nilai default-nya adalah 0.0.

  • scale(float) — Jika lulus, faktor skala ini diterapkan untuk softmax. Jika diatur keNone, 1 / sqrt(attention_head_size) digunakan sebagai faktor skala. Nilai default-nya adalah None.

Metode

  • forward(self, q, kv, causal=False, cast_dtype=None, layout="b s h d")- Fungsi PyTorch modul reguler. Ketika a module(x) dipanggil, SMP menjalankan fungsi ini secara otomatis.

    • qtorch.Tensor dari bentuk berikut (batch_size x seqlen x num_heads x head_size) atau(batch_size x num_heads x seqlen x head_size). Arg tata letak yang sesuai harus dilewatkan berdasarkan bentuknya.

    • kvtorch.Tensor dari bentuk berikut (batch_size x seqlen x (2 x num_heads) x head_size) atau(batch_size, (2 x num_heads) x seqlen x head_size), atau tupel dua torch.Tensor s, yang masing-masing mungkin berbentuk (batch_size x seqlen x num_heads x head_size) atau(batch_size x num_heads x seqlen x head_size). layoutArgumen yang tepat juga harus diteruskan berdasarkan bentuknya.

    • causal— Ketika diatur keFalse, yang merupakan nilai default dari argumen, tidak ada topeng diterapkan. Ketika diatur keTrue, forward metode ini menggunakan topeng segitiga bawah standar. Nilai default-nya adalah False.

    • cast_dtype— Ketika diatur ke dtype tertentu, itu melemparkan qkv tensor ke dtype itu sebelumnya. attn Ini berguna untuk implementasi seperti Hugging Face Transformers GPT-Neox, yang memiliki dengan after rotary embeddings. q,k fp32 Jika disetel keNone, tidak ada pemeran yang diterapkan. Nilai default-nya adalah None.

    • layout (string) - Nilai yang tersedia adalah "b h s d" atau"b s h d". Ini harus diatur ke tata letak qkv tensor yang dilewati, sehingga transformasi yang tepat dapat diterapkan. attn Nilai default-nya adalah "b h s d".

Pengembalian

Mengembalikan satu torch.Tensor (batch_size x num_heads x seq_len x head_size) yang mewakili output dari perhitungan perhatian.

torch.sagemaker.nn.huggingface.llama_flashattn.LlamaFlashAttention

API yang mendukung FlashAttention model Llama. API ini menggunakan torch.sagemaker.nn.attn.FlashGroupedQueryAttention API pada level rendah. Untuk mempelajari cara menggunakan ini, lihatGunakan FlashAttention kernel untuk perhatian kueri yang dikelompokkan.

class torch.sagemaker.nn.huggingface.llama_flashattn.LlamaFlashAttention( config: LlamaConfig )

Parameter

  • config— FlashAttention Konfigurasi untuk model Llama.

Metode

  • forward(self, hidden_states, attention_mask, position_ids, past_key_value, output_attentions, use_cache)

    • hidden_states(torch.Tensor) — Keadaan tersembunyi dari tensor dalam bentuk. (batch_size x seq_len x num_heads x head_size)

    • attention_mask(torch.LongTensor) — Topeng untuk menghindari perhatian pada indeks token padding dalam bentuk. (batch_size x seqlen) Nilai default-nya adalah None.

    • position_ids(torch.LongTensor) — Ketika tidakNone, itu dalam bentuk(batch_size x seqlen), menunjukkan indeks posisi setiap token urutan input dalam embeddings posisi. Nilai default-nya adalah None.

    • past_key_value(Cache) — Keadaan tersembunyi yang telah dihitung sebelumnya (kunci dan nilai di blok perhatian diri dan di blok perhatian silang). Nilai default-nya adalah None.

    • output_attentions(bool) — Menunjukkan apakah akan mengembalikan tensor perhatian dari semua lapisan perhatian. Nilai default-nya adalah False.

    • use_cache(bool) - Menunjukkan apakah akan mengembalikan status nilai past_key_values kunci. Nilai default-nya adalah False.

Pengembalian

Mengembalikan satu torch.Tensor (batch_size x num_heads x seq_len x head_size) yang mewakili output dari perhitungan perhatian.

torch.sagemaker.transform

SMP v2 menyediakan torch.sagemaker.transform() API ini untuk mengubah model Hugging Face Transformer menjadi implementasi model SMP dan mengaktifkan paralelisme tensor SMP.

torch.sagemaker.transform( model: nn.Module, device: Optional[torch.device] = None, dtype: Optional[torch.dtype] = None, config: Optional[Dict] = None, load_state_dict_from_rank0: bool = False )

SMP v2 mempertahankan kebijakan transformasi untuk Model Hugging Face Transformer kompatibel dengan paralelisme tensor SMP dengan mengubah konfigurasi model Hugging Face Transformer ke konfigurasi transformator SMP.

Parameter

  • model(torch.nn.Module) — Model dari Model Hugging Face Transformer kompatibel dengan paralelisme tensor SMP untuk mengubah dan menerapkan fitur paralelisme tensor dari perpustakaan SMP.

  • device(torch.device) — Jika diteruskan, model baru dibuat pada perangkat ini. Jika modul asli memiliki parameter apa pun pada perangkat meta (lihatInisialisasi parameter tertunda), maka modul yang diubah juga akan dibuat pada perangkat meta, mengabaikan argumen yang diteruskan di sini. Nilai default-nya adalah None.

  • dtype(torch.dtype) — Jika diteruskan, tetapkan ini sebagai pengelola konteks dtype untuk pembuatan model dan buat model dengan dtype ini. Ini biasanya tidak perlu, karena kita ingin membuat model dengan fp32 saat menggunakanMixedPrecision, dan fp32 merupakan dtype default di PyTorch. Nilai default-nya adalah None.

  • config(dict) - Ini adalah kamus untuk mengkonfigurasi transformator SMP. Nilai default-nya adalah None.

  • load_state_dict_from_rank0(Boolean) - Secara default, modul ini membuat instance baru dari model dengan bobot baru. Ketika argumen ini disetel keTrue, SMP mencoba memuat kamus status PyTorch model asli dari peringkat 0 menjadi model transformasi untuk grup paralel tensor yang menjadi bagian dari peringkat ke-0. Ketika ini disetel keTrue, peringkat 0 tidak dapat memiliki parameter apa pun di perangkat meta. Hanya grup paralel tensor pertama yang mengisi bobot dari peringkat ke-0 setelah panggilan transformasi ini. Anda perlu mengatur sync_module_states ke True dalam pembungkus FSDP untuk mendapatkan bobot ini dari grup paralel tensor pertama ke semua proses lainnya. Dengan ini diaktifkan, perpustakaan SMP memuat kamus status dari model aslinya. Pustaka SMP mengambil model sebelum mentransformasi, mengubahnya agar sesuai dengan struktur model yang ditransformasikan, membaginya untuk setiap peringkat paralel tensor, mengkomunikasikan keadaan ini dari peringkat ke-0 ke peringkat lain dalam kelompok paralel tensor yang peringkat ke-0 adalah bagian dari, dan memuatnya. state_dict Nilai default-nya adalah False.

Pengembalian

Mengembalikan model yang diubah yang dapat Anda bungkus dengan PyTorch FSDP. Kapan load_state_dict_from_rank0 diatur keTrue, grup paralel tensor yang melibatkan peringkat 0 memiliki bobot yang dimuat dari kamus status asli pada peringkat 0. Saat menggunakan Inisialisasi parameter tertunda pada model asli, hanya peringkat ini yang memiliki tensor aktual pada CPU untuk parameter dan buffer model yang diubah. Sisa peringkat terus memiliki parameter dan buffer pada perangkat meta untuk menghemat memori.

torch.sagemakerfungsi dan properti util

fungsi obor.sagemaker util
  • torch.sagemaker.init(config: Optional[Union[str, Dict[str, Any]]] = None) -> None— Menginisialisasi pekerjaan PyTorch pelatihan dengan SMP.

  • torch.sagemaker.is_initialized() -> bool— Memeriksa apakah pekerjaan pelatihan diinisialisasi dengan SMP. Ketika kembali ke asli PyTorch saat pekerjaan diinisialisasi dengan SMP, beberapa properti tidak relevan dan menjadiNone, seperti yang ditunjukkan dalam daftar Properti berikut.

  • torch.sagemaker.utils.module_utils.empty_module_params(module: nn.Module, device: Optional[torch.device] = None, recurse: bool = False) -> nn.Module— Membuat parameter kosong pada yang diberikan device jika ada, dan dapat bersifat rekursif untuk semua modul bersarang jika ditentukan.

  • torch.sagemaker.utils.module_utils.move_buffers_to_device(module: nn.Module, device: torch.device, recurse: bool = False) -> nn.Module— Memindahkan buffer modul ke yang diberikandevice, dan dapat bersifat rekursif untuk semua modul bersarang jika ditentukan.

Properti

torch.sagemaker.statememegang beberapa properti yang berguna setelah inisialisasi SMP dengan. torch.sagemaker.init

  • torch.sagemaker.state.hybrid_shard_degree(int) — Tingkat paralelisme data sharded, salinan dari input pengguna dalam konfigurasi SMP diteruskan ke. torch.sagemaker.init() Untuk mempelajari selengkapnya, lihat Memulai dengan SageMaker pustaka paralelisme model v2.

  • torch.sagemaker.state.rank(int) — Peringkat global untuk perangkat, dalam kisaran[0, world_size).

  • torch.sagemaker.state.rep_rank_process_group(torch.distributed.ProcessGroup) — Grup proses termasuk semua perangkat dengan peringkat replikasi yang sama. Perhatikan perbedaan halus namun mendasar dengantorch.sagemaker.state.tp_process_group. Ketika jatuh kembali ke asli PyTorch, ia kembaliNone.

  • torch.sagemaker.state.tensor_parallel_degree(int) — Derajat paralelisme tensor, salinan dari input pengguna dalam konfigurasi SMP diteruskan ke. torch.sagemaker.init() Untuk mempelajari selengkapnya, lihat Memulai dengan SageMaker pustaka paralelisme model v2.

  • torch.sagemaker.state.tp_size(int) — Sebuah alias untuktorch.sagemaker.state.tensor_parallel_degree.

  • torch.sagemaker.state.tp_rank(int) — Peringkat paralelisme tensor untuk perangkat dalam kisaran[0, tp_size), ditentukan oleh derajat paralelisme tensor dan mekanisme peringkat.

  • torch.sagemaker.state.tp_process_group(torch.distributed.ProcessGroup) — Kelompok proses paralel tensor termasuk semua perangkat dengan peringkat yang sama di dimensi lain (misalnya, paralelisme dan replikasi data sharded) tetapi peringkat paralel tensor yang unik. Ketika jatuh kembali ke asli PyTorch, ia kembaliNone.

  • torch.sagemaker.state.world_size(int) — Jumlah total perangkat yang digunakan dalam pelatihan.

Tingkatkan dari SMP v1 ke SMP v2

Untuk berpindah dari SMP v1 ke SMP v2, Anda harus membuat perubahan skrip untuk menghapus API SMP v1 dan menerapkan API SMP v2. Alih-alih memulai dari skrip SMP v1 Anda, kami sarankan Anda memulai dari skrip PyTorch FSDP, dan ikuti instruksi di. Memulai dengan SageMaker pustaka paralelisme model v2

Untuk membawa model SMP v1 ke SMP v2, di SMP v1 Anda harus mengumpulkan kamus status model lengkap dan menerapkan fungsi terjemahan pada kamus status model untuk mengubahnya menjadi format pos pemeriksaan model Hugging Face Transformers. Kemudian di SMP v2, seperti yang dibahas diSimpan dan muat pos pemeriksaan saat menggunakan SMP, Anda dapat memuat pos pemeriksaan model Hugging Face Transformers, dan kemudian melanjutkan dengan menggunakan API pos pemeriksaan dengan SMP v2. PyTorch Untuk menggunakan SMP dengan model PyTorch FSDP Anda, pastikan Anda pindah ke SMP v2 dan membuat perubahan pada skrip pelatihan Anda untuk menggunakan PyTorch FSDP dan fitur terbaru lainnya.

import smdistributed.modelparallel.torch as smp # Create model model = ... model = smp.DistributedModel(model) # Run training ... # Save v1 full checkpoint if smp.rdp_rank() == 0: model_dict = model.state_dict(gather_to_rank0=True) # save the full model # Get the corresponding translation function in smp v1 and translate if model_type == "gpt_neox": from smdistributed.modelparallel.torch.nn.huggingface.gptneox import translate_state_dict_to_hf_gptneox translated_state_dict = translate_state_dict_to_hf_gptneox(state_dict, max_seq_len=None) # Save the checkpoint checkpoint_path = "checkpoint.pt" if smp.rank() == 0: smp.save( {"model_state_dict": translated_state_dict}, checkpoint_path, partial=False, )

Untuk menemukan fungsi terjemahan yang tersedia di SMP v1, lihat. Support untuk Model Trafo Hugging Face

Untuk instruksi tentang penyimpanan dan pemuatan pos pemeriksaan model di SMP v2, lihat. Simpan dan muat pos pemeriksaan saat menggunakan SMP