Detail agen - Evaluasi - Amazon CloudWatch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Detail agen - Evaluasi

Evaluasi menyediakan metrik pemantauan kualitas berkelanjutan untuk agen AI Anda. Anda dapat menggunakan informasi yang disediakan oleh dasbor untuk menilai kinerja, kualitas, dan keandalan agen AI Anda.

Alih-alih mengandalkan kasus uji simulasi, evaluasi menangkap sesi pengguna nyata dan interaksi agen, memberikan pandangan komprehensif tentang kinerja agen, dari input hingga output akhir. Dengan evaluasi agen, Anda dapat menentukan aturan pengambilan sampel untuk mengevaluasi hanya persentase sesi atau jejak, dan kemudian menerapkan berbagai evaluator untuk menilai dan menilai kinerja operasional agen AI. Penilaian dan skor yang dihasilkan ditampilkan di dasbor Evaluasi, memungkinkan Anda memantau tren, mengidentifikasi potensi masalah kualitas, mengatur alarm, dan menyelidiki serta mendiagnosis potensi masalah.

Dasbor Evaluasi mencantumkan semua evaluasi yang telah diaktifkan dan dikonfigurasi untuk agen yang dipilih. Untuk informasi selengkapnya tentang mengonfigurasi evaluasi untuk agen, lihat AgentCore evaluasi. Anda dapat memperluas setiap evaluasi untuk melihat sesi, jejak, dan rentang yang dievaluasi.

Evaluasi

Rincian evaluasi

Untuk setiap evaluasi, dasbor mencakup bagian-bagian berikut:

Evaluation configuration metrics

Menyediakan metrik untuk konfigurasi evaluasi keseluruhan. Evaluator mendefinisikan bagaimana menilai aspek tertentu dari kinerja agen AI. Untuk melihat detail selengkapnya tentang evaluator, pilih namanya di kolom Evaluator. Untuk melihat diagram batang dan menganalisis tren untuk evaluator, pilih nilai di kolom Hitung.

Metrik konfigurasi evaluasi
Session evaluations

Memberikan hasil evaluasi untuk evaluator di tingkat sesi. Sesi merupakan pengelompokan logis interaksi terkait dari satu pengguna atau alur kerja. Sesi dapat berisi satu atau lebih jejak. Anda dapat memilih sesi untuk memfilter ke daftar jejak dalam sesi tersebut di bagian Evaluasi jejak.

Evaluasi sesi
Trace evaluations

Memberikan hasil evaluasi untuk evaluator di tingkat jejak. Jejak adalah catatan lengkap dari eksekusi atau permintaan agen tunggal. Jejak dapat berisi satu atau lebih bentang. Pilih jejak untuk melihat detail jejak bersama dengan semua evaluator yang dijalankan pada jejak itu.

Evaluasi jejak
Span evaluations

Memberikan hasil evaluasi untuk evaluator di tingkat rentang. Rentang mewakili operasi individu yang dilakukan selama eksekusi itu. Pilih rentang untuk melihat detail rentang bersama dengan semua operasi yang dilakukan selama rentang itu.

Evaluasi rentang

Grafik evaluasi

Dasbor Evaluasi juga menyertakan grafik batang untuk setiap evaluator. Grafik menunjukkan tren untuk setiap evaluator dari waktu ke waktu, dan memungkinkan Anda menyetel alarm untuk nilai metrik tertentu. Untuk mengatur alarm, klik bilah di grafik, lalu pilih ikon Alarm (bel). Untuk informasi selengkapnya, lihat Menggunakan CloudWatch alarm Amazon.

Grafik evaluasi

Bekerja dengan hasil evaluasi

Jika Anda memerlukan akses langsung ke data hasil evaluasi, atau jika Anda ingin membuat visualisasi khusus atau bekerja di luar konsol AgentCore Evaluasi, Anda dapat mengakses hasil evaluasi secara langsung melalui CloudWatch Log, CloudWatch Metrik, dan dasbor. CloudWatch

Mengakses hasil evaluasi di Log CloudWatch

Hasil evaluasi Anda secara otomatis dipublikasikan ke CloudWatch Log dalam Embedded Metric Format (EMF).

Untuk menemukan grup log hasil evaluasi Anda
  1. Buka CloudWatch konsol.

  2. Di panel navigasi, pilih Manajemen Log > Grup log.

  3. Cari atau navigasikan ke grup log dengan awalan:/aws/bedrock-agentcore/evaluations/.

  4. Dalam grup log ini, peristiwa log berisi hasil evaluasi.

Untuk informasi selengkapnya tentang bekerja dengan grup log dan menanyakan data log, lihat Bekerja dengan Grup Log dan Aliran Log dan Menganalisis Data Log dengan Wawasan CloudWatch Log.

Mengakses metrik evaluasi dalam Metrik CloudWatch

Metrik hasil evaluasi secara otomatis diekstraksi dari log Embedded Metric Format (EMF) dan dipublikasikan ke Metrik. CloudWatch

Untuk menemukan metrik evaluasi Anda
  1. Buka CloudWatch konsol.

  2. Di panel navigasi, pilih Metrik > Semua metrik.

  3. Pilih namespace Bedrock AgentCore /Evaluations.

  4. Jelajahi metrik yang tersedia berdasarkan dimensi.

Untuk informasi selengkapnya tentang melihat dan bekerja dengan metrik, lihat Menggunakan CloudWatch Metrik dan Metrik Grafik.

Membuat Dasbor Kustom

Anda dapat membuat dasbor khusus untuk memvisualisasikan metrik evaluasi Anda bersama metrik operasional lainnya.

Untuk membuat dasbor dengan metrik evaluasi
  1. Di CloudWatch konsol, pilih Dasbor dari panel navigasi.

  2. Pilih Buat dasbor.

  3. Tambahkan widget dan pilih metrik dari namespace Bedrock /Evaluations AgentCore.

  4. Sesuaikan rentang waktu, statistik, dan jenis visualisasi untuk kebutuhan Anda.

Untuk petunjuk terperinci, lihat Membuat dan Bekerja dengan Dasbor Kustom dan Menggunakan CloudWatch Dasbor.

Menyetel alarm pada metrik evaluasi

Anda dapat menyetel alarm untuk memberi tahu Anda saat metrik evaluasi melewati ambang batas tertentu yang telah Anda tentukan, seperti ketika kebenaran turun di bawah tingkat yang dapat diterima.

Untuk membuat alarm pada metrik evaluasi
  1. Di CloudWatch konsol, pilih Alarm > Semua alarm.

  2. Pilih Buat alarm.

  3. Pilih Pilih metrik dan arahkan ke ruang nama Bedrock AgentCore /Evaluations.

  4. Pilih metrik yang ingin Anda pantau.

  5. Konfigurasikan kondisi ambang batas (ambang deteksi anomali dinamis tersedia di mana Anda tidak perlu menentukan ambang angka statis) dan tindakan pemberitahuan.

Untuk petunjuk terperinci, lihat Menggunakan CloudWatch Alarm dan Membuat CloudWatch Alarm Berdasarkan Ambang Statis.

Sumber Daya Tambahan