Rincian evaluasi Grafik evaluasi Bekerja dengan hasil evaluasi

Detail agen - Evaluasi

Evaluasi menyediakan metrik pemantauan kualitas berkelanjutan untuk agen AI Anda. Anda dapat menggunakan informasi yang disediakan oleh dasbor untuk menilai kinerja, kualitas, dan keandalan agen AI Anda.

Alih-alih mengandalkan kasus uji simulasi, evaluasi menangkap sesi pengguna nyata dan interaksi agen, memberikan pandangan komprehensif tentang kinerja agen, dari input hingga output akhir. Dengan evaluasi agen, Anda dapat menentukan aturan pengambilan sampel untuk mengevaluasi hanya persentase sesi atau jejak, dan kemudian menerapkan berbagai evaluator untuk menilai dan menilai kinerja operasional agen AI. Penilaian dan skor yang dihasilkan ditampilkan di dasbor Evaluasi, memungkinkan Anda memantau tren, mengidentifikasi potensi masalah kualitas, mengatur alarm, dan menyelidiki serta mendiagnosis potensi masalah.

Dasbor Evaluasi mencantumkan semua evaluasi yang telah diaktifkan dan dikonfigurasi untuk agen yang dipilih. Untuk informasi selengkapnya tentang mengonfigurasi evaluasi untuk agen, lihat AgentCore evaluasi. Anda dapat memperluas setiap evaluasi untuk melihat sesi, jejak, dan rentang yang dievaluasi.

Rincian evaluasi

Untuk setiap evaluasi, dasbor mencakup bagian-bagian berikut:

Evaluation configuration metrics: Menyediakan metrik untuk konfigurasi evaluasi keseluruhan. Evaluator mendefinisikan bagaimana menilai aspek tertentu dari kinerja agen AI. Untuk melihat detail selengkapnya tentang evaluator, pilih namanya di kolom Evaluator. Untuk melihat diagram batang dan menganalisis tren untuk evaluator, pilih nilai di kolom Hitung.
Session evaluations: Memberikan hasil evaluasi untuk evaluator di tingkat sesi. Sesi merupakan pengelompokan logis interaksi terkait dari satu pengguna atau alur kerja. Sesi dapat berisi satu atau lebih jejak. Anda dapat memilih sesi untuk memfilter ke daftar jejak dalam sesi tersebut di bagian Evaluasi jejak.
Trace evaluations: Memberikan hasil evaluasi untuk evaluator di tingkat jejak. Jejak adalah catatan lengkap dari eksekusi atau permintaan agen tunggal. Jejak dapat berisi satu atau lebih bentang. Pilih jejak untuk melihat detail jejak bersama dengan semua evaluator yang dijalankan pada jejak itu.
Span evaluations: Memberikan hasil evaluasi untuk evaluator di tingkat rentang. Rentang mewakili operasi individu yang dilakukan selama eksekusi itu. Pilih rentang untuk melihat detail rentang bersama dengan semua operasi yang dilakukan selama rentang itu.

Grafik evaluasi

Dasbor Evaluasi juga menyertakan grafik batang untuk setiap evaluator. Grafik menunjukkan tren untuk setiap evaluator dari waktu ke waktu, dan memungkinkan Anda menyetel alarm untuk nilai metrik tertentu. Untuk mengatur alarm, klik bilah di grafik, lalu pilih ikon Alarm (bel). Untuk informasi selengkapnya, lihat Menggunakan CloudWatch alarm Amazon.

Bekerja dengan hasil evaluasi

Jika Anda memerlukan akses langsung ke data hasil evaluasi, atau jika Anda ingin membuat visualisasi khusus atau bekerja di luar konsol AgentCore Evaluasi, Anda dapat mengakses hasil evaluasi secara langsung melalui CloudWatch Log, CloudWatch Metrik, dan dasbor. CloudWatch

Topik

Mengakses hasil evaluasi di Log CloudWatch
Mengakses metrik evaluasi dalam Metrik CloudWatch
Membuat Dasbor Kustom
Menyetel alarm pada metrik evaluasi
Sumber Daya Tambahan

Mengakses hasil evaluasi di Log CloudWatch

Hasil evaluasi Anda secara otomatis dipublikasikan ke CloudWatch Log dalam Embedded Metric Format (EMF).

Untuk menemukan grup log hasil evaluasi Anda

Buka CloudWatch konsol.
Di panel navigasi, pilih Manajemen Log > Grup log.
Cari atau navigasikan ke grup log dengan awalan:/aws/bedrock-agentcore/evaluations/.
Dalam grup log ini, peristiwa log berisi hasil evaluasi.

Untuk informasi selengkapnya tentang bekerja dengan grup log dan menanyakan data log, lihat Bekerja dengan Grup Log dan Aliran Log dan Menganalisis Data Log dengan Wawasan CloudWatch Log.

Mengakses metrik evaluasi dalam Metrik CloudWatch

Metrik hasil evaluasi secara otomatis diekstraksi dari log Embedded Metric Format (EMF) dan dipublikasikan ke Metrik. CloudWatch

Untuk menemukan metrik evaluasi Anda

Buka CloudWatch konsol.
Di panel navigasi, pilih Metrik > Semua metrik.
Pilih namespace Bedrock AgentCore /Evaluations.
Jelajahi metrik yang tersedia berdasarkan dimensi.

Untuk informasi selengkapnya tentang melihat dan bekerja dengan metrik, lihat Menggunakan CloudWatch Metrik dan Metrik Grafik.

Membuat Dasbor Kustom

Anda dapat membuat dasbor khusus untuk memvisualisasikan metrik evaluasi Anda bersama metrik operasional lainnya.

Untuk membuat dasbor dengan metrik evaluasi

Di CloudWatch konsol, pilih Dasbor dari panel navigasi.
Pilih Buat dasbor.
Tambahkan widget dan pilih metrik dari namespace Bedrock /Evaluations AgentCore.
Sesuaikan rentang waktu, statistik, dan jenis visualisasi untuk kebutuhan Anda.

Untuk petunjuk terperinci, lihat Membuat dan Bekerja dengan Dasbor Kustom dan Menggunakan CloudWatch Dasbor.

Menyetel alarm pada metrik evaluasi

Anda dapat menyetel alarm untuk memberi tahu Anda saat metrik evaluasi melewati ambang batas tertentu yang telah Anda tentukan, seperti ketika kebenaran turun di bawah tingkat yang dapat diterima.

Untuk membuat alarm pada metrik evaluasi

Di CloudWatch konsol, pilih Alarm > Semua alarm.
Pilih Buat alarm.
Pilih Pilih metrik dan arahkan ke ruang nama Bedrock AgentCore /Evaluations.
Pilih metrik yang ingin Anda pantau.
Konfigurasikan kondisi ambang batas (ambang deteksi anomali dinamis tersedia di mana Anda tidak perlu menentukan ambang angka statis) dan tindakan pemberitahuan.

Untuk petunjuk terperinci, lihat Menggunakan CloudWatch Alarm dan Membuat CloudWatch Alarm Berdasarkan Ambang Statis.

Sumber Daya Tambahan

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Detail agen - Jejak

Tampilan sesi