Mengevaluasi aplikasi LLMs perawatan kesehatan dan ilmu hayati

Bagian ini memberikan gambaran komprehensif tentang persyaratan dan pertimbangan untuk mengevaluasi model bahasa besar (LLMs) dalam kasus penggunaan perawatan kesehatan dan ilmu hayati.

Penting untuk menggunakan data kebenaran dasar dan umpan balik UKM untuk mengurangi bias dan memvalidasi keakuratan respons yang dihasilkan LLM. Bagian ini menjelaskan praktik terbaik untuk mengumpulkan dan mengkurasi data pelatihan dan pengujian. Ini juga membantu Anda menerapkan pagar pembatas dan mengukur bias dan keadilan data. Ini juga membahas tugas-tugas pemrosesan bahasa alami medis umum (NLP), seperti klasifikasi teks, pengenalan entitas bernama, dan pembuatan teks, dan metrik evaluasi terkait.

Ini juga menyajikan alur kerja untuk melakukan evaluasi LLM selama fase eksperimen pelatihan dan fase pasca-produksi. Pemantauan model dan operasi LLM adalah elemen penting dari proses evaluasi ini.

Data pelatihan dan pengujian untuk tugas NLP medis

Tugas NLP medis biasanya menggunakan corpora medis (seperti PubMed) atau informasi pasien (seperti catatan kunjungan pasien klinik) untuk mengklasifikasikan, meringkas, dan menghasilkan wawasan. Tenaga medis, dokter, administrator perawatan kesehatan, atau teknisi, bervariasi dalam keahlian dan sudut pandang. Karena subjektivitas antara tenaga medis ini, kumpulan data pelatihan dan pengujian yang lebih kecil menimbulkan risiko bias. Untuk mengurangi risiko ini, kami merekomendasikan praktik terbaik berikut:

Saat menggunakan solusi LLM yang telah dilatih sebelumnya, pastikan Anda memiliki jumlah data pengujian yang memadai. Data tes harus sama persis atau sangat mirip dengan data medis yang sebenarnya. Tergantung pada tugasnya, ini dapat berkisar dari 20 hingga lebih dari 100 catatan.
Saat menyempurnakan LLM, kumpulkan cukup banyak catatan berlabel (kebenaran dasar) dari berbagai domain medis yang SMEs ditargetkan. Titik awal umum adalah setidaknya 100 catatan berkualitas tinggi, dan kami merekomendasikan tidak lebih dari 20 catatan dari setiap UKM. Namun, mengingat kompleksitas tugas dan kriteria penerimaan akurasi Anda, lebih banyak catatan mungkin diperlukan.
Jika diperlukan untuk kasus penggunaan medis Anda, terapkan pagar pembatas dan ukur bias dan keadilan data. Misalnya, pastikan bahwa LLM mencegah kesalahan diagnosis karena profil ras pasien. Untuk informasi lebih lanjut, lihat Keamanan dan pagar bagian dalam panduan ini.

Banyak perusahaan penelitian dan pengembangan AI, seperti Anthropic, telah menerapkan pagar pembatas dalam model fondasi mereka untuk menghindari toksisitas. Anda dapat menggunakan deteksi toksisitas untuk memeriksa petunjuk input dan respons keluaran dari. LLMs Untuk informasi selengkapnya, lihat Deteksi toksisitas di dokumentasi Amazon Comprehend.

Dalam tugas AI generatif apa pun, ada risiko halusinasi. Anda dapat mengurangi risiko ini dengan melakukan tugas NLP, seperti klasifikasi. Anda juga dapat menggunakan teknik yang lebih canggih, seperti metrik kesamaan teks. BertScoreadalah metrik kesamaan teks yang umum diadopsi. Untuk informasi lebih lanjut tentang teknik yang dapat Anda gunakan untuk mengurangi halusinasi, lihat Survei Komprehensif Teknik Mitigasi Halusinasi dalam Model Bahasa Besar.

Metrik untuk tugas NLP medis

Anda dapat membuat metrik yang dapat diukur setelah Anda membuat data kebenaran dasar dan label yang disediakan SME untuk pelatihan dan pengujian. Memeriksa kualitas melalui proses kualitatif, seperti stress testing dan meninjau hasil LLM, sangat membantu untuk pengembangan cepat. Namun, metrik bertindak sebagai tolok ukur kuantitatif yang mendukung operasi LLM masa depan dan bertindak sebagai tolok ukur kinerja untuk setiap rilis produksi.

Memahami tugas medis sangat penting. Metrik biasanya dipetakan ke salah satu tugas NLP umum berikut:

Klasifikasi teks - LLM mengkategorikan teks ke dalam satu atau lebih kategori yang telah ditentukan, berdasarkan prompt input dan konteks yang disediakan. Contohnya adalah mengklasifikasikan kategori nyeri dengan menggunakan skala nyeri. Contoh metrik klasifikasi teks meliputi:
- Akurasi
- Presisi, juga dikenal sebagai presisi makro
- Ingat, juga dikenal sebagai recall makro
- Skor F1, juga dikenal sebagai skor F1 makro
- Kehilangan Hamming
Pengenalan entitas bernama (NER) - Juga dikenal sebagai ekstraksi teks, pengenalan entitas bernama adalah proses menemukan dan mengklasifikasikan entitas bernama yang disebutkan dalam teks tidak terstruktur ke dalam kategori yang telah ditentukan. Contohnya adalah mengekstraksi nama-nama obat dari catatan pasien. Contoh metrik NER meliputi:
- Akurasi
- presisi
- Ingat
- Skor F1
- Kehilangan Hamming
Generasi - LLM menghasilkan teks baru dengan memproses konteks prompt dan disediakan. Generasi mencakup tugas meringkas atau tugas menjawab pertanyaan. Contoh metrik generasi meliputi:
- Pengganti Berorientasi Recall untuk Evaluasi Gisting (ROUGE)
- Metrik untuk Evaluasi Terjemahan dengan Eksplisit ORdering (METEOR)
- Pengganti evaluasi bilingual (BLEU) (untuk terjemahan)
- Jarak string, juga dikenal sebagai kesamaan kosinus

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Memilih pendekatan

Pertanyaan yang Sering Diajukan