Apa itu pos pemeriksaan menengah dan mengapa mereka dibutuhkan?Pos pemeriksaan apa yang tersedia?Pos pemeriksaan mana yang akan digunakan?Bagaimana cara menggunakan pencampuran data untuk model 1.0 atau 2.0?Membedah Kategori Pencampuran Data

Lanjutan Pra-Pelatihan dan Pertengahan Pelatihan

catatan

Dokumentasi rinci disediakan setelah berlangganan

Nova Forge CPT menawarkan kemampuan canggih di luar CPT standar, termasuk akses ke pos pemeriksaan menengah dan pencampuran data dengan korpus pra-pelatihan Nova. Fitur-fitur ini memungkinkan adaptasi domain yang lebih efisien dan pelestarian kemampuan umum model yang lebih baik.

Apa itu pos pemeriksaan menengah dan mengapa mereka dibutuhkan?

Pos pemeriksaan menengah adalah snapshot dari model Amazon Nova yang disimpan pada berbagai tahap pra-pelatihan, sebelum model mencapai kondisi siap produksi akhir. Selama pengembangan model, Amazon Nova menjalani beberapa fase pelatihan: pra-pelatihan awal dengan tingkat pembelajaran konstan, tingkat pembelajaran ramp-down, pelatihan ekstensi konteks, dan akhirnya pelatihan penyelarasan dan keselamatan mengikuti instruksi. Untuk CPT, pos pemeriksaan perantara seringkali lebih disukai daripada pos pemeriksaan Prod akhir karena lebih plastis dan mudah menerima adaptasi domain. Pos pemeriksaan Prod telah menjalani pelatihan penyelarasan dan keselamatan mengikuti instruksi ekstensif, yang mengoptimalkan model untuk penggunaan percakapan umum tetapi dapat membuatnya tahan terhadap mempelajari pola spesifik domain baru selama CPT. Sebaliknya, hanya pos pemeriksaan teks yang telah dilatih sebagian dan sepenuhnya yang mempertahankan karakteristik pra-pelatihan model. Mereka belum banyak diarahkan ke perilaku tertentu, menjadikannya titik awal yang lebih efisien untuk adaptasi domain. Saat melakukan CPT skala besar (>10B token), mulai dari pos pemeriksaan menengah biasanya menghasilkan konvergensi yang lebih cepat, stabilitas pelatihan yang lebih baik, dan akuisisi pengetahuan domain yang lebih efektif. Namun, untuk CPT skala kecil (<10B token), atau ketika kemampuan mengikuti instruksi perlu dipertahankan, pos pemeriksaan Prod mungkin lebih tepat karena memungkinkan adaptasi domain sambil mempertahankan kemampuan percakapan model.

Beberapa pos pemeriksaan perantara diperlukan untuk CPT karena mereka menawarkan berbagai tingkat plastisitas model yang memengaruhi seberapa efisien model dapat menyerap pengetahuan domain baru. Pos pemeriksaan Prod terakhir telah menjalani pelatihan penyelarasan dan keselamatan mengikuti instruksi ekstensif, yang mengoptimalkannya untuk penggunaan percakapan umum tetapi membuatnya tahan terhadap mempelajari pola spesifik domain baru. Dengan kata lain, Itu telah diperkeras melalui pasca-pelatihan. Sebaliknya, pos pemeriksaan sebelumnya mempertahankan karakteristik pra-pelatihan model dan belum banyak diarahkan ke perilaku tertentu, membuatnya lebih plastis dan reseptif terhadap adaptasi domain.

Untuk mencapai efisiensi pelatihan terbaik, beberapa pos pemeriksaan menengah disediakan.

Pos pemeriksaan apa yang tersedia?

Nova 1.0

Keluarga Amazon Nova 1.0 memiliki tiga model (Micro, Lite, Pro) dan untuk setiap model ada tiga pos pemeriksaan yang tersedia.

PRE-TRAINED - [nova-<micro/lite/pro>/pretraining-text-partial]: Ini adalah pos pemeriksaan setelah tahap tingkat pembelajaran konstan dari pra-pelatihan Amazon Nova di mana model dilatih pada triliunan token teks.
MID-TRAINED - [nova-<micro/lite/pro>/pretraining-text-full]: Ini adalah pos pemeriksaan teks saja setelah semua tahapan pra-pelatihan dan pelatihan menengah Amazon Nova dengan triliunan token teks telah selesai. Gunakan ini jika model secara khusus seharusnya tidak melihat data multi-modal.
MID-TRAINED - [nova-<lite/pro>/pretraining-mm-full]: Ini adalah pos pemeriksaan setelah semua tahapan pra-pelatihan dan pelatihan menengah Amazon Nova, termasuk data multi-modal, dengan triliunan token telah diproses.
POST-TRAINED - [nova-<micro/lite/pro>/prod]: Ini adalah pos pemeriksaan akhir yang sepenuhnya selaras dari model yang telah melalui semua langkah pra-pelatihan dan pasca pelatihan.

Nova 2.0

Ada tiga pos pemeriksaan Amazon Nova Lite 2.0.

PRE-TRAINED - [nova-lite-2/pretraining-text-RD]: Ini adalah pos pemeriksaan setelah tingkat pembelajaran konstan dan tahap ramp-down dari pra-pelatihan Amazon Nova di mana model dilatih pada triliunan token.
MID-TRAINED - [nova-lite-2/pretraining-text-CE]: Pos pemeriksaan ini memungkinkan volume menengah dari data tidak terstruktur diperkenalkan dengan tingkat pembelajaran yang lebih konservatif daripada pra-pelatihan, menyerap pengetahuan khusus domain sambil menghindari bencana lupa.
POST-TRAINED - [nova-lite-2/prod]: Ini adalah pos pemeriksaan akhir yang sepenuhnya selaras dari model yang telah melalui semua langkah terkait dan pasca pelatihan.

Tabel berikut menguraikan kondisi yang berbeda untuk pra dan pertengahan pelatihan.

Tipe data	Melakukan	Dengan Checkpoint
Data domain mentah tidak terstruktur skala besar (dokumen, log, artikel, kode, dll.)	Lanjutan Pra-Pelatihan	Pra-terlatih
Data domain mentah tidak terstruktur skala besar (dokumen, log, artikel, kode, dll.)	Pertengahan Pelatihan	Pra-terlatih
Volume data mentah tidak terstruktur yang lebih kecil. Jejak penalaran terstruktur/data CoT	Pertengahan Pelatihan	Menengah Terlatih
Demonstrasi terstruktur (pasangan input-output berkualitas tinggi, instruksi tugas yang dikuratori, dialog multi-putaran)	Penyetelan Sempurna Penuh	Menengah Terlatih
Demonstrasi terstruktur (pasangan input-output berkualitas tinggi, instruksi tugas yang dikuratori, dialog multi-putaran)	Parameter Fine-Tuning yang Efisien	Pasca Terlatih

Pos pemeriksaan mana yang akan digunakan?

Hanya teks yang telah dilatih sebagian dan pos pemeriksaan teks yang sepenuhnya dilatih sebelumnya biasanya berkumpul lebih cepat dan membutuhkan lebih sedikit langkah pelatihan untuk adaptasi domain. Namun, mereka tidak memiliki penyetelan instruksi dan perlu menjalani langkah-langkah pasca pelatihan untuk dapat melakukan tugas yang berguna dan mengikuti instruksi. Pos pemeriksaan GA mungkin memerlukan lebih banyak langkah untuk beradaptasi tetapi memberikan titik awal yang lebih aman untuk eksperimen skala kecil dan akan mempertahankan beberapa kemampuan pasca pelatihan TI bahkan setelah pelatihan CPT.

Secara umum, dengan kumpulan data pelatihan yang besar (>10B token), mulai dari teks yang telah dilatih sebagian saja atau pos pemeriksaan teks yang sepenuhnya dilatih sebelumnya untuk pelatihan yang lebih efisien dan stabil, karena basis pengetahuan model akan dimodifikasi secara substansional. Dengan kumpulan data kecil (<10B token), gunakan pos pemeriksaan GA untuk mempertahankan kemampuan mengikuti instruksi sambil beradaptasi dengan domain.

Bagaimana cara menggunakan pencampuran data untuk model 1.0 atau 2.0?

Saat melakukan CPT dengan data domain baru, sangat bermanfaat untuk mencampur data baru dengan beberapa data yang digunakan sebelumnya dalam tahap pra-pelatihan model. Mencampur data lama dengan data domain baru memecahkan dua masalah:

Melupakan kontrol: Mencegah bencana lupa dengan melestarikan keterampilan dan pengetahuan model yang ada. Tanpa pencampuran data, pelatihan secara eksklusif pada data domain yang sempit menyebabkan model menimpa kemampuan umum. Misalnya, model yang dilatih hanya pada dokumen hukum mungkin kehilangan kemampuannya untuk membuat kode atau melakukan matematika. Mencampur kumpulan data domain umum mempertahankan keterampilan umum ini saat memperoleh domain baru.
Stabilitas optimasi: Menjaga stabilitas pelatihan dengan menambatkan representasi internal model. Selama CPT, fitur yang dipelajari model dimodifikasi dan pencampuran data memberikan gradien dari beragam sumber yang memandu adaptasi ini dengan lancar. Tanpa itu, pelatihan tentang distribusi sempit dapat menyebabkan ketidakstabilan gradien, di mana representasi model bergeser terlalu drastis, yang mengarah ke divergensi pelatihan, lonjakan kehilangan, atau runtuhnya kemampuan yang ada. Ini adalah tradeoff stabilitas-plastisitas: model harus cukup plastis untuk mempelajari pengetahuan domain baru, tetapi cukup stabil untuk tidak merusak apa yang sudah diketahui.

Kemampuan Pencampuran Data Nova CPT

Akses ke data pra-pelatihan Amazon Nova dan pos pemeriksaan adalah salah satu penawaran inti dari kustomisasi Amazon Nova CPT. Kustomisasi Amazon Nova CPT memungkinkan pencampuran data domain yang mudah dengan korpus pra-pelatihan Amazon Nova. Selanjutnya, rasio pengambilan sampel dari kategori data Amazon Nova tertentu (misalnya, kode, matematika, penalaran, dll) dapat diubah dan proporsinya dikontrol untuk melengkapi data domain. Hal ini memungkinkan penguatan kemampuan yang selaras dengan kasus penggunaan sambil mengadaptasi model ke domain tertentu.

Menemukan Rasio Pencampuran Optimal

Rasio optimal data Amazon Nova versus data domain tergantung pada domain kumpulan data, kompleksitas, ukuran, kualitas, dan pentingnya mempertahankan kemampuan umum. Rasio ini harus ditemukan melalui eksperimen. Kerangka percobaan untuk memutuskan berapa banyak data Amazon Nova yang akan dicampur adalah sebagai berikut.

Pilih subset representatif dari data domain (misalnya, token 5B) dan pertahankan konstanta ini di semua proses eksperimental.

Jalankan eksperimen CPT skala kecil dengan hanya memvariasikan jumlah data Amazon Nova yang dicampur dalam:

Tanpa pencampuran: 100% domain → domain 5B saja (total 5B)
Pencampuran ringan: domain 90% → Domain 5B+~ 0,56B Amazon Nova (total ~ 5,56B)
Pencampuran sedang: domain 70% → domain 5B + ~ 2.14B Amazon Nova (total ~ 7.14B)
Pencampuran berat: domain 50% → Domain 5B+5B Amazon Nova (total 10B)

Evaluasi setiap pos pemeriksaan di dalam domain dan tolok ukur domain umum. Juga evaluasi pos pemeriksaan awal (pos pemeriksaan Amazon Nova sebelum pelatihan apa pun).

Apakah kinerja domain pelanggan tetap kira-kira konstan di seluruh proses? Biasanya harus, karena setiap run melihat jumlah token domain yang sama. Jika kinerja domain meningkat dengan lebih banyak pencampuran, data Amazon Nova memberikan regularisasi yang berguna.
Apakah skor benchmark umum meningkat saat pencampuran meningkat?
- Perilaku yang diharapkan adalah bahwa kemampuan umum harus meningkat secara monoton karena lebih banyak data Amazon Nova ditambahkan.
- Ukur beberapa tolok ukur umum: MMLU (pengetahuan umum), HumanEval (pengkodean), GSM8 K (matematika), atau tolok ukur tertentu yang menarik.
Pilih rasio pencampuran yang mempertahankan kinerja domain sambil memberikan kemampuan umum yang dapat diterima untuk kasus penggunaan. Faktor biaya tambahan pelatihan dengan lebih banyak pencampuran data.

Setelah rasio pencampuran optimal diidentifikasi, jalankan CPT skala penuh menggunakan kumpulan data domain lengkap dengan rasio pencampuran yang dipilih.

Membedah Kategori Pencampuran Data

Di bawah ini kami membedah setiap kategori yang tersedia dalam Pencampuran Data, agar Anda dapat membuat keputusan terbaik tentang kategori data apa yang paling masuk akal untuk diwakili dalam campuran data Anda secara keseluruhan.

Cara Mengaktifkan Pencampuran Data

Tambahkan data_mixing bagian ke resep Anda dengan distribusi persentase yang sesuai di seluruh kategori kumpulan data. nova_dataPersentase harus berjumlah 100.

Konfigurasi Nova 1.0 dengan pencampuran Data



run:
  name: "cpt-job-name"             # A descriptive name for your training job
  model_type: "amazon.nova-lite-v1:0:300k"  # Model variant specification, do not change
  model_name_or_path: "nova-lite/prod"
  replicas: 4 
  data_s3_path: "s3://path/to/data/xyz.jsonl"
  output_s3_path: "s3://path/to/output/checkpoint"
  
skip_recipe_validation: true
training_config:
  max_length: 32768
  global_batch_size: 64
  trainer:
    max_steps: 5000
  model:
    hidden_dropout: 0.1
    attention_dropout: 0.1
    ffn_dropout: 0.1
    optim:
      lr: 1.5e-05
      name: distributed_fused_adam
      adam_w_mode: true
      eps: 1.0e-06
      weight_decay: 0.05
      betas:
      - 0.9
      - 0.999
      sched:
        warmup_steps: 500
        constant_steps: 0
        min_lr: 1.5e-06
        
data_mixing:
  dataset_catalog: cpt_text_lite
  sources:
    nova_data:
      en-entertainment: 0.11%
      en-factual: 4.83%
      en-legal: 0.48%
      en-long-form-text: 6.26%
      en-mined: 16.79%
      en-other: 1.79%
      en-scientific: 10.53%
      en-social: 12.43%
      en-techqa: 13.95%
      code: 7.50%
      high-util-lang: 8.05%
      low-util-lang: 6.51%
      math: 8.76%
      en-finance: 1%
      tables: 1%
    customer_data:
      percent: 90

Apa arti kategori ini

Nama Kategori	Detail info
`en-entertainment`	Konten media dan hiburan termasuk transkrip video, dialog game, dan diskusi yang berfokus pada hiburan.
`en-factual`	Bahan referensi, konten ensiklopedis, sumber daya pendidikan, dan dokumentasi faktual yang berfokus pada penyampaian informasi yang akurat.
`en-finance`	Teks keuangan termasuk laporan pasar, analisis ekonomi, strategi investasi, artikel berita keuangan, laporan pendapatan, dan konten terkait keuangan lainnya yang membantu model memahami konsep ekonomi dan terminologi keuangan.
`en-legal`	Dokumen hukum, proses pengadilan, kontrak, hukum, peraturan, dan teks analisis hukum.
`en-long-form-text`	Tulisan-tulisan yang diperluas termasuk buku, makalah akademis, artikel panjang, dan dokumen teks substansif lainnya.
`en-mined`	Data teks diekstraksi dari berbagai sumber web, termasuk forum, komentar, diskusi, dan konten web umum dan ditulis ulang untuk memastikan kinerja pelatihan yang tinggi.
`en-other`	Lain-lain konten bahasa Inggris yang tidak cocok dengan jelas ke dalam kategori lain.
`en-scientific`	Makalah ilmiah, dokumen penelitian, laporan teknis, dan diskusi ilmiah di berbagai bidang.
`en-social`	Posting media sosial, percakapan, diskusi, dan bentuk komunikasi sosial lainnya.
`en-techqa`	Dokumentasi teknis, panduan pengguna, halaman FAQ, forum teknis, dan konten Q yang terkait dengan teknologi.
`code`	Pemrograman kode sumber, dokumentasi, dan diskusi teknis dari berbagai bahasa dan platform pemrograman.
`high-util-lang`	Konten teks dalam bahasa dengan sejumlah besar data pelatihan yang tersedia, termasuk Jerman (DE), Italia (IT), Spanyol (ES), Prancis (FR), Hindi (HI), Jepang (JP), Arab (AR) dan Portugis (PT)
`low-util-lang`	Konten teks dalam bahasa lisan tambahan dengan jumlah yang lebih kecil dari data pelatihan yang tersedia.
`math`	Konten matematika termasuk buku teks, masalah, solusi, dan diskusi matematika.
`tables`	Data terstruktur dalam format tabel termasuk spreadsheet, database, file CSV, tabel statistik, laporan keuangan, dan informasi terorganisir kolom baris lainnya yang membantu model memahami dan bekerja dengan hubungan dan pola data terstruktur.

Konfigurasi Nova 2.0 dengan pencampuran data



# Note:
# This recipe can run on p5.48xlarge

# Run config
display_name: "Nova Lite Pretrain on P5 GPU"
versions: ["2.0"]
instance_types: ["ml.p5.48xlarge"]

run:
  name: "my-cpt-run"     # A descriptive name for your training job
  model_type: "amazon.nova-2-lite-v1:0:256k" # Model variant specification, do not change
  model_name_or_path: "nova-lite-2/prod" # Base model path, do not change
  replicas: 8       # Number of compute instances for training, allowed values are 4, 8, 16, 32
  data_s3_path: ""       # Customer data paths
  validation_data_s3_path: ""        # Customer validation data paths
  output_s3_path: ""   # Output artifact path, SageMaker HyperPod job-specific configuration - not compatible with standard SageMaker Training jobs

## Training specific configs
training_config:
  task_type: cpt
  max_length: 8192              # Maximum context window size (tokens)
  global_batch_size: 64        # Global batch size, allowed values are 32, 64, 128, 256.

  trainer:
    max_steps: 10               # The number of training steps to run total
    val_check_interval: 10      # The number of steps between running validation
    limit_val_batches: 2        # Batches of the validation set to use each trigger

  model:
    hidden_dropout: 0.0           # Dropout for hidden states, must be between 0.0 and 1.0
    attention_dropout: 0.0        # Dropout for attention weights, must be between 0.0 and 1.0

  optim:
    optimizer: adam
    lr: 1e-5                      # Learning rate
    name: distributed_fused_adam  # Optimizer algorithm, do not change
    adam_w_mode: true             # Enable AdamW mode
    eps: 1e-06                    # Epsilon for numerical stability
    weight_decay: 0.0             # L2 regularization strength, must be between 0.0 and 1.0
    adam_beta1: 0.9               # Beta1 for Adam optimizer
    adam_beta2: 0.95              # Beta2 for Adam optimizer
    sched:
      warmup_steps: 10            # Learning rate warmup steps
      constant_steps: 0           # Steps at constant learning rate
      min_lr: 1e-6                # Minimum learning rate, must be lower than lr

data_mixing:
  dataset_catalog: cpt_text_lite
  sources:
    nova_data:   # percent inputs for Nova data must sum to 100%; use 0% if you want to exclude a data grouping
      agents: 20
      business-and-finance: 4
      scientific: 10
      code: 5
      factual-and-news: 5
      longform-text: 6
      health-and-medicine: 1
      humanities-and-education: 1
      legal: 1
      math: 9
      additional-languages: 15
      social-and-personal-interest: 11
      entertainment: 0.5
      reasoning: 10
      other: 0.5
      tables: 1
    customer_data: # percent input of customer data. 100 = use only customer data, 0 = use only the nova_data mix above
      percent: 25

Apa arti kategori ini

Catatan: Nova 2.0 menyertakan kategori khusus penalaran tambahan (misalnya,, reasoning-codereasoning-math,reasoning-instruction-following) yang tidak tersedia di Nova 1.0.

Ringkasan Kategori dan Label Info:

Nama Kategori	Detail info
`agents`	Data pelatihan berfokus pada pengambilan keputusan otonom, penyelesaian tugas, dan perilaku berorientasi pada tujuan dalam sistem AI
`baseline`	Data bahasa fundamental berfokus pada pemahaman umum, komunikasi dasar, dan kemampuan linguistik inti
`chat`	Pertukaran percakapan yang menunjukkan aliran dialog alami, pemeliharaan konteks, dan interaksi sosial yang sesuai
`code`	Pemrograman kode sumber, dokumentasi, dan diskusi teknis dari berbagai bahasa dan platform pemrograman.
`factuality`	Bahan referensi dan informasi terverifikasi yang berfokus pada akurasi, validasi sumber, dan penilaian kebenaran
`identity`	Kerangka kepribadian dan pola perilaku berfokus pada sifat karakter, nilai, dan gaya interaksi yang konsisten
`long-context`	Teks yang diperluas dan narasi kompleks difokuskan pada pemeliharaan koherensi dan relevansi di seluruh pertukaran yang panjang
`math`	Konten matematika termasuk buku teks, masalah, solusi, dan diskusi matematika.
`rai`	Kasus dan skenario yang menekankan prinsip AI etis, pertimbangan keselamatan, dan penerapan teknologi yang bertanggung jawab
`instruction-following`	Contoh pelaksanaan tugas yang tepat berdasarkan berbagai tingkat permintaan dan arahan pengguna
`stem`	Konten teknis yang mencakup sains, teknologi, teknik, dan matematika, termasuk pemecahan masalah dan konsep teoritis
`planning`	Urutan yang menunjukkan pemikiran strategis, pemecahan step-by-step tugas, dan alokasi sumber daya yang efisien
`reasoning-chat`	Skenario dialog analitis berfokus pada diskusi logis dan alur percakapan terstruktur
`reasoning-code`	Tantangan pemrograman dan masalah algoritmik difokuskan pada pengembangan solusi sistematis
`reasoning-factuality`	Skenario evaluasi informasi berfokus pada penilaian kritis dan proses verifikasi
`reasoning-instruction-following`	Analisis tugas kompleks berfokus pada interpretasi sistematis dan eksekusi metodis
`reasoning-math`	Skenario pemecahan masalah matematika berfokus pada perkembangan logis dan strategi solusi
`reasoning-planning`	Skenario pengambilan keputusan strategis berfokus pada pendekatan sistematis untuk pencapaian tujuan
`reasoning-rag`	Skenario pengambilan informasi dan sintesis berfokus pada pemahaman kontekstual dan aplikasi yang relevan
`reasoning-rai`	Skenario pengambilan keputusan etis berfokus pada evaluasi sistematis keamanan dan keadilan AI
`reasoning-stem`	Skenario pemecahan masalah ilmiah yang berfokus pada analisis metodis dan pengembangan solusi
`rag`	Contoh menggabungkan pengetahuan eksternal yang diambil secara efektif dengan tanggapan yang dihasilkan untuk memberikan informasi kontekstual yang akurat
`translation`	Pasangan konten multi-bahasa menunjukkan terjemahan yang akurat sambil mempertahankan konteks, nada, dan nuansa budaya

Panduan Parameter

dataset_catalog: Satu-satunya nilai adalah cpt_text_lite untuk saat ini, sampai kita mengaktifkan pelatihan multimodal.
nova_data: Persentase masing-masing kategori data Nova saat dicampur. Mereka harus menambahkan hingga 1.0.
customer_data: persentase data pelanggan yang dicampur ke dalam data Nova.

Jumlah total token yang digunakan dalam pelatihan dapat dihitung dari max_length * global_batch_size * max_steps

Batasan

CPT saat ini hanya mendukung data teks dan tidak mendukung kumpulan data multi-modal pelanggan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Akses dan pengaturan Nova Forge

Fine-Tuning yang Diawasi