Mengevaluasi solusi AI generatif untuk perawatan kesehatan - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengevaluasi solusi AI generatif untuk perawatan kesehatan

Mengevaluasi solusi AI perawatan kesehatan yang Anda bangun sangat penting untuk memastikan bahwa solusi tersebut efektif, andal, dan dapat diskalakan di lingkungan medis dunia nyata. Gunakan pendekatan sistematis untuk mengevaluasi kinerja setiap komponen solusi. Berikut ini adalah ringkasan metodologi dan metrik yang dapat Anda gunakan untuk mengevaluasi solusi Anda.

Mengevaluasi ekstraksi informasi

Mengevaluasi kinerja solusi ekstraksi informasi, seperti parser resume cerdas dan ekstraktor entitas khusus. Anda dapat mengukur keselarasan respons solusi ini dengan menggunakan kumpulan data pengujian. Jika Anda tidak memiliki kumpulan data yang mencakup profil bakat perawatan kesehatan serbaguna dan catatan medis pasien, Anda dapat membuat kumpulan data tes khusus dengan menggunakan kemampuan penalaran LLM. Misalnya, Anda dapat menggunakan model parameter besar, seperti Anthropic Claude model, untuk menghasilkan dataset uji.

Berikut ini adalah tiga metrik utama yang dapat Anda gunakan untuk mengevaluasi model ekstraksi informasi:

  • Akurasi dan kelengkapan — Metrik ini mengevaluasi sejauh mana output menangkap informasi yang benar dan lengkap yang ada dalam data kebenaran dasar. Ini melibatkan memeriksa kebenaran informasi yang diekstraksi dan keberadaan semua detail yang relevan dalam informasi yang diekstraksi.

  • Kesamaan dan relevansi — Metrik ini menilai kesamaan semantik, struktural, dan kontekstual antara output dan data kebenaran dasar (kesamaan) dan sejauh mana output selaras dengan dan membahas konten, konteks, dan maksud dari data kebenaran dasar (relevansi).

  • Tingkat penarikan atau penangkapan yang disesuaikan — Tingkat ini secara empiris menentukan berapa banyak nilai saat ini dalam data kebenaran dasar yang diidentifikasi dengan benar oleh model. Tarif harus mencakup hukuman untuk semua nilai palsu yang diekstrak model.

  • Skor presisi — Skor presisi membantu Anda menentukan berapa banyak positif palsu yang ada dalam prediksi, dibandingkan dengan positif sebenarnya. Misalnya, Anda dapat menggunakan metrik presisi untuk mengukur kebenaran kemahiran keterampilan yang diekstraksi.

Mengevaluasi solusi RAG dengan beberapa retriever

Untuk menilai seberapa baik sistem mengambil informasi yang relevan dan seberapa efektif menggunakan informasi tersebut untuk menghasilkan respons yang akurat dan sesuai kontekstual, Anda dapat menggunakan metrik berikut:

  • Relevansi respons - Ukur seberapa relevan respons yang dihasilkan, yang menggunakan konteks yang diambil, dengan kueri asli.

  • Ketepatan konteks — Dari total hasil yang diambil, evaluasi proporsi dokumen atau cuplikan yang diambil yang relevan dengan kueri. Ketepatan konteks yang lebih tinggi menunjukkan bahwa mekanisme pengambilan efektif dalam memilih informasi yang relevan.

  • Kesetiaan — Menilai seberapa akurat respons yang dihasilkan mencerminkan informasi dalam konteks yang diambil. Dengan kata lain, ukur apakah respons tetap benar terhadap informasi sumber.

Mengevaluasi solusi dengan menggunakan LLM

Anda dapat menggunakan teknik yang disebut LLM- as-a-judge untuk mengevaluasi respons teks dari solusi AI generatif Anda. Ini melibatkan penggunaan LLMs untuk mengevaluasi dan menilai kinerja output model. Teknik ini menggunakan kemampuan Amazon Bedrock untuk memberikan penilaian pada berbagai atribut, seperti kualitas respons, koherensi, kepatuhan, akurasi, dan kelengkapan preferensi manusia atau data kebenaran dasar. Anda menggunakan chain-of-thought (CoT) dan beberapa teknik bidikan untuk evaluasi komprehensif. Prompt menginstruksikan LLM untuk mengevaluasi respons yang dihasilkan dengan rubrik penilaian, dan sampel beberapa tembakan dalam prompt menunjukkan proses evaluasi yang sebenarnya. Prompt ini juga mencakup pedoman untuk diikuti oleh evaluator LLM. Misalnya, Anda dapat mempertimbangkan untuk menggunakan satu atau lebih teknik evaluasi berikut yang menggunakan LLM untuk menilai tanggapan yang dihasilkan:

  • Perbandingan berpasangan - Berikan evaluator LLM pertanyaan medis dan beberapa tanggapan yang dihasilkan oleh versi berulang yang berbeda dari sistem RAG yang Anda buat. Minta evaluator LLM untuk menentukan respons terbaik berdasarkan kualitas respons, koherensi, dan kepatuhan terhadap pertanyaan awal.

  • Penilaian jawaban tunggal — Teknik ini sangat cocok untuk kasus penggunaan di mana Anda perlu mengevaluasi keakuratan kategorisasi, seperti klasifikasi hasil pasien, kategorisasi perilaku pasien, kemungkinan masuk kembali pasien, dan kategorisasi risiko. Gunakan evaluator LLM untuk menganalisis kategorisasi atau klasifikasi individu secara terpisah, dan mengevaluasi alasan yang diberikannya terhadap data kebenaran dasar.

  • Penilaian yang dipandu referensi - Berikan evaluator LLM dengan serangkaian pertanyaan medis yang memerlukan jawaban deskriptif. Buat contoh tanggapan untuk pertanyaan-pertanyaan ini, seperti jawaban referensi atau tanggapan ideal. Minta evaluator LLM untuk membandingkan respons yang dihasilkan LLM dengan jawaban referensi atau tanggapan ideal, dan minta evaluator LLM untuk menilai respons yang dihasilkan untuk akurasi, kelengkapan, kesamaan, relevansi, atau atribut lainnya. Teknik ini membantu Anda mengevaluasi apakah respons yang dihasilkan selaras dengan standar yang terdefinisi dengan baik atau jawaban teladan.