Jelajahi dasbor Amazon SageMaker Debugger Insights - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jelajahi dasbor Amazon SageMaker Debugger Insights

Saat Anda memulai pekerjaan SageMaker pelatihan, SageMaker Debugger mulai memantau pemanfaatan sumber daya instans Amazon EC2 secara default. Anda dapat melacak tingkat pemanfaatan sistem, ikhtisar statistik, dan analisis aturan bawaan melalui dasbor Wawasan. Panduan ini memandu Anda melalui konten dasbor SageMaker Debugger Insights di bawah tab berikut: Metrik dan Aturan Sistem.

catatan

Dasbor SageMaker Debugger Insights menjalankan aplikasi Studio Classic pada ml.m5.4xlarge instance untuk memproses dan merender visualisasi. Setiap tab SageMaker Debugger Insights menjalankan satu sesi kernel Studio Classic. Beberapa sesi kernel untuk beberapa tab SageMaker Debugger Insights berjalan pada satu instance. Saat Anda menutup tab SageMaker Debugger Insights, sesi kernel yang sesuai juga ditutup. Aplikasi Studio Classic tetap aktif dan dikenakan biaya untuk penggunaan ml.m5.4xlarge instans. Untuk informasi tentang harga, lihat halaman SageMaker Harga Amazon.

penting

Setelah selesai menggunakan dasbor SageMaker Debugger Insights, matikan ml.m5.4xlarge instance untuk menghindari biaya yang bertambah. Untuk petunjuk tentang cara mematikan instance, lihatMatikan instans Amazon SageMaker Debugger Insights.

penting

Dalam laporan, plot dan rekomendasi disediakan untuk tujuan informasi dan tidak definitif. Anda bertanggung jawab untuk membuat penilaian independen Anda sendiri atas informasi tersebut.

Metrik sistem

Di tab Metrik Sistem, Anda dapat menggunakan tabel ringkasan dan plot waktu untuk memahami pemanfaatan sumber daya.

Ringkasan pemanfaatan sumber daya

Tabel ringkasan ini menunjukkan statistik metrik pemanfaatan sumber daya komputasi dari semua node (dilambangkan sebagai algo- n). Metrik pemanfaatan sumber daya meliputi CPU pemanfaatan total, GPU pemanfaatan total, pemanfaatan CPU memori total, pemanfaatan GPU memori total, total waktu tunggu I/O, dan total jaringan dalam byte. Tabel menunjukkan nilai minimum dan maksimum, dan persentil p99, p90, dan p50.

Tabel ringkasan pemanfaatan sumber daya

Plot deret waktu pemanfaatan sumber daya

Gunakan grafik deret waktu untuk melihat rincian lebih lanjut tentang pemanfaatan sumber daya dan mengidentifikasi pada interval waktu berapa setiap instance menunjukkan tingkat pemanfaatan yang tidak diinginkan, seperti pemanfaatan rendah GPU dan CPU kemacetan yang dapat menyebabkan pemborosan contoh mahal.

UI pengontrol grafik deret waktu

Tangkapan layar berikut menunjukkan pengontrol UI untuk menyesuaikan grafik deret waktu.

Pengontrol UI di dasbor SageMaker Debugger Insights.
  • algo-1: Gunakan menu dropdown ini untuk memilih node yang ingin Anda lihat.

  • Zoom In: Gunakan tombol ini untuk memperbesar grafik deret waktu dan melihat interval waktu yang lebih pendek.

  • Perkecil: Gunakan tombol ini untuk memperkecil grafik deret waktu dan melihat interval waktu yang lebih luas.

  • Pan Kiri: Pindahkan grafik deret waktu ke interval waktu sebelumnya.

  • Pan Kanan: Pindahkan grafik deret waktu ke interval waktu berikutnya.

  • Perbaiki Jangka Waktu: Gunakan kotak centang ini untuk memperbaiki atau mengembalikan grafik deret waktu untuk menampilkan seluruh tampilan dari titik data pertama ke titik data terakhir.

CPUpemanfaatan dan waktu tunggu I/O

Dua grafik pertama menunjukkan CPU pemanfaatan dan waktu tunggu I/O dari waktu ke waktu. Secara default, grafik menunjukkan rata-rata tingkat CPU pemanfaatan dan waktu tunggu I/O yang dihabiskan untuk inti. CPU Anda dapat memilih satu atau lebih CPU inti dengan memilih label untuk membuat grafik pada bagan tunggal dan membandingkan pemanfaatan di seluruh inti. Anda dapat menyeret dan memperbesar dan memperkecil untuk melihat lebih dekat pada interval waktu tertentu.

debugger-studio-insight-mockup

GPUpemanfaatan dan GPU pemanfaatan memori

Grafik berikut menunjukkan GPU pemanfaatan dan pemanfaatan GPU memori dari waktu ke waktu. Secara default, grafik menunjukkan tingkat pemanfaatan rata-rata dari waktu ke waktu. Anda dapat memilih label GPU inti untuk melihat tingkat pemanfaatan setiap inti. Mengambil rata-rata tingkat pemanfaatan atas jumlah total GPU inti menunjukkan pemanfaatan rata-rata dari seluruh sumber daya sistem perangkat keras. Dengan melihat tingkat pemanfaatan rata-rata, Anda dapat memeriksa keseluruhan penggunaan sumber daya sistem dari EC2 instans Amazon. Gambar berikut menunjukkan contoh pekerjaan pelatihan pada ml.p3.16xlarge instance dengan 8 GPU core. Anda dapat memantau apakah pekerjaan pelatihan didistribusikan dengan baik, sepenuhnya memanfaatkan semuaGPUs.

debugger-studio-insight-mockup

Pemanfaatan sistem secara keseluruhan dari waktu ke waktu

Peta panas berikut menunjukkan contoh seluruh pemanfaatan sistem ml.p3.16xlarge instance dari waktu ke waktu, diproyeksikan ke plot dua dimensi. Setiap CPU GPU inti tercantum dalam sumbu vertikal, dan pemanfaatannya dicatat dari waktu ke waktu dengan skema warna, di mana warna-warna cerah mewakili pemanfaatan rendah dan warna yang lebih gelap mewakili pemanfaatan yang tinggi. Lihat bilah warna berlabel di sisi kanan plot untuk mengetahui tingkat warna mana yang sesuai dengan tingkat pemanfaatan mana.

debugger-studio-insight-mockup

Aturan

Gunakan tab Aturan untuk menemukan ringkasan analisis aturan pembuatan profil pada pekerjaan pelatihan Anda. Jika aturan pembuatan profil diaktifkan dengan pekerjaan pelatihan, teks akan muncul disorot dengan teks putih solid. Aturan tidak aktif diredupkan dalam teks abu-abu. Untuk mengaktifkan aturan ini, ikuti instruksi diKonfigurasikan aturan profiler bawaan yang dikelola oleh Amazon SageMaker Debugger.

Tab Aturan di dasbor SageMaker Debugger Insights