Validasi hasil pengujian kebijakan Penalaran Otomatis Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Validasi hasil pengujian kebijakan Penalaran Otomatis Anda

Ketika pengujian selesai, Anda diberikan serangkaian hasil validasi untuk memahami kinerja kebijakan Penalaran Otomatis Anda.

Tes mencakup informasi berikut:

  • Kueri dan Konten: Pertanyaan yang mungkin diajukan pengguna pada aplikasi GenAI Anda dan kemungkinan respons. Anda menentukan ini jika Anda membuat tes secara manual. Penalaran Otomatis mendefinisikan ini jika Anda membuat skenario pengujian.

  • Ambang kepercayaan: Tingkat kepercayaan minimum untuk validasi logika yang Anda tetapkan untuk pengujian Anda. Ambang batas ini menentukan bagaimana Penalaran Otomatis menangani ketidakpastian dalam menerjemahkan bahasa alami ke logika formal. Konten yang memenuhi atau melampaui ambang batas dianggap sebagai temuan kepercayaan tinggi yang dapat divalidasi dengan hasil definitif (VALID atau TIDAK VALID). Konten yang berada di bawah ambang batas adalah temuan kepercayaan rendah yang ditandai sebagai TRANSLATION_AMBIGUOUS, menunjukkan ambiguitas yang terdeteksi sistem dan memilih untuk tidak memberikan hasil validasi yang berpotensi salah.

  • Hasil validasi:

    • Hasil yang diharapkan: Hasil yang Anda harapkan dari menjalankan tes.

    • Hasil aktual: Hasil dari menjalankan tes.

    • Hasil eksekusi: Menunjukkan apakah tes lulus. Jika hasil yang diharapkan dan aktual sejajar, tes lulus. Jika tidak, tes gagal.

  • Temuan: Output dari tes kebijakan Penalaran Otomatis adalah serangkaian temuan. Temuan mewakili klaim faktual yang terkandung dalam pertanyaan dan jawaban tes Anda. Gunakan ini untuk membantu Anda memahami mengapa tes lulus atau gagal.

    • Jenis: Terjemahan dapat mencakup kombinasi klaim dan premis.

      • Premis: Menyediakan konteks, asumsi, atau kondisi yang mempengaruhi bagaimana klaim harus dievaluasi. Dalam question-and-answer format, premis sering menjadi pertanyaan itu sendiri. Jawaban juga dapat berisi premis yang menetapkan kendala atau kondisi. Misalnya, dalam pertanyaan, “Angka apa yang dapat dibagi 2?” dan menjawab, “Angka genap”, premisnya adalah “angka habis dibagi 2". Dalam pernyataan itu, “Ketika lampu lalu lintas berubah hijau, Anda harus pergi,” tempat itu “lampu lalu lintas berwarna hijau”.

      • Klaim: Pernyataan faktual yang mengevaluasi Penalaran Otomatis untuk akurasi. Dalam question-and-answer format, klaim biasanya jawabannya. Dalam pernyataan mandiri, klaim adalah fakta yang ditegaskan. Misalnya, dalam pertanyaan, “Angka apa yang dapat dibagi 2?” dan menjawab, “Angka genap”, klaimnya adalah “angka genap”.

    • Hasil: Menunjukkan seberapa valid klaim temuan. Untuk informasi selengkapnya, lihat Hasil validasi uji.

    • Keyakinan: Skor kepercayaan (mulai dari 0,0 hingga 1,0) yang dimiliki Penalaran Otomatis dalam terjemahan dari bahasa alami ke logika formal, yang mewakili seberapa pasti sistem tentang menafsirkan teks input dengan benar. Skor yang lebih tinggi menunjukkan kepastian yang lebih besar dalam terjemahan. Misalnya, jika terjemahan memiliki kepercayaan “1.0", itu menunjukkan kepastian maksimum bahwa bahasa alami secara akurat dikonversi ke logika formal. Skor kepercayaan yang lebih rendah menunjukkan bahwa sistem memiliki beberapa ketidakpastian tentang terjemahan yang mungkin ingin Anda tinjau.

    • Penugasan: Penugasan variabel dari kebijakan Anda yang membuktikan temuan tersebut valid atau tidak. Terjemahan memiliki pernyataan logika yang menunjukkan bagaimana bahasa alami diubah menjadi logika formal. Ini bisa menjadi lebih kompleks ketika ada logika bersarang. Misalnya, hasDogHistoryOfAggression is false.

    • Aturan: Logika yang diekstraksi dari kebijakan Anda yang mendukung temuan tersebut. Tes memberi Anda aturan yang cukup relevan dari kebijakan Anda untuk membantu Anda memahami hasil temuan.

Hasil validasi uji

Daftar berikut merinci kemungkinan hasil validasi dari pengujian kebijakan Penalaran Otomatis:

VALID

Klaim dalam respons model secara logis konsisten dengan aturan kebijakan Anda dan dapat dibuktikan secara matematis benar. Respons dengan benar mengikuti semua kendala logis yang berlaku dan penalaran dari premis ke kesimpulan masuk akal.

Contoh: Jika kebijakan Anda menyatakan “Karyawan dengan layanan 1+ tahun mendapatkan cuti orang tua” dan model menjawab “Anda memenuhi syarat untuk cuti orang tua karena Anda telah bekerja di sini selama 18 bulan,” ini akan VALID karena 18 bulan melebihi persyaratan 1 tahun.

INVALID

Klaim dalam respons model bertentangan atau melanggar aturan kebijakan Anda. Tanggapan tersebut berisi pernyataan yang secara matematis dapat dibuktikan sebagai salah berdasarkan kendala logika formal kebijakan Anda.

Contoh: Jika kebijakan Anda menyatakan “Karyawan dengan layanan 1+ tahun mendapatkan cuti orang tua” dan model tersebut menjawab “Anda memenuhi syarat untuk cuti orang tua meskipun Anda hanya bekerja di sini selama 3 bulan,” ini tidak VALID karena 3 bulan tidak memenuhi persyaratan 1 tahun.

SATISFIABLE

Klaim konsisten dengan setidaknya satu kemungkinan interpretasi aturan kebijakan Anda, tetapi mungkin tidak membahas semua aturan yang relevan. Ini berarti tanggapan tidak bertentangan dengan kebijakan Anda, tetapi mungkin tidak sepenuhnya mengatasi semua kendala yang berlaku.

Contoh: Jika kebijakan Anda menyatakan “Karyawan membutuhkan layanan 1+ tahun untuk cuti orang tua DAN harus menyerahkan formulir HR-101" dan model tersebut menjawab “Anda memenuhi syarat untuk cuti orang tua karena Anda telah bekerja di sini selama 2 tahun,” ini akan memuaskan karena responsnya memenuhi persyaratan layanan dengan benar tetapi tidak menyebutkan persyaratan formulir (tanpa menentangnya).

IMPOSSIBLE

Penalaran Otomatis tidak dapat membuat pernyataan tentang klaim. Ini dapat terjadi jika premisnya secara logis salah, atau jika ada konflik dalam kebijakan Penalaran Otomatis itu sendiri.

Contoh: Jika kebijakan Anda berisi aturan yang kontradiktif seperti “Semua karyawan mendapatkan hari liburan” dan “Tidak ada karyawan yang mendapatkan hari liburan,” atau jika pertanyaan tes berisi premis yang tidak mungkin seperti “Manfaat apa yang didapat karyawan jika mereka bekerja dengan jam negatif?” , hasilnya tidak mungkin karena fondasi logisnya cacat.

TRANSLATION_AMBIGUOUS

Terdeteksi ambiguitas dalam terjemahan berarti tidak masuk akal untuk melanjutkan pemeriksaan validitas. Konteks tambahan atau pertanyaan tindak lanjut mungkin diperlukan untuk mendapatkan terjemahan agar berhasil.

Contoh: Jika pertanyaan tes Anda adalah “Bisakah mereka mengambil cuti?” tanpa menentukan siapa yang dimaksud “mereka”, atau jika respons model menggunakan kata ganti ambigu seperti “Itu tergantung pada situasi mereka” tanpa referensi yang jelas, hasilnya adalah TRANSLATION_AMBIGUOUS karena sistem tidak dapat dengan andal menerjemahkan bahasa samar ke dalam logika formal.

TOO_COMPLEX

Input berisi terlalu banyak informasi untuk Penalaran Otomatis untuk diproses dalam batas latensinya.

Contoh: Jika tes Anda mencakup respons model yang sangat panjang dengan ratusan klaim yang saling berhubungan tentang tunjangan karyawan, kebijakan liburan, asuransi kesehatan, rencana pensiun, dan tinjauan kinerja semuanya dalam satu respons, hasilnya mungkin TOO_COMPLEX karena analisis logis akan melebihi batas waktu pemrosesan.

NO_TRANSLATIONS

Mengidentifikasi bahwa beberapa atau semua prompt input tidak diterjemahkan ke dalam logika. Hal ini dapat terjadi jika input tidak relevan dengan kebijakan Penalaran Otomatis, atau jika kebijakan tidak memiliki variabel untuk memodelkan input yang relevan. Jika Penalaran Otomatis tidak dapat menerjemahkan apa pun, Anda mendapatkan satu NO_TRANSLATIONS temuan. Anda mungkin juga melihat NO_TRANSLATIONS (bersama dengan temuan lain) jika beberapa bagian dari validasi tidak diterjemahkan.

Contoh: Jika kebijakan SDM Anda dirancang untuk memvalidasi tunjangan karyawan tetapi pertanyaan tes Anda menanyakan “Seperti apa cuaca hari ini?” atau “Bagaimana cara memasak pasta?” , hasilnya adalah NO_TRANSLATIONS karena kontennya sama sekali tidak terkait dengan domain dan variabel kebijakan Anda.