Mengevaluasi aplikasi LLMs perawatan kesehatan dan ilmu hayati - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengevaluasi aplikasi LLMs perawatan kesehatan dan ilmu hayati

Bagian ini memberikan gambaran komprehensif tentang persyaratan dan pertimbangan untuk mengevaluasi model bahasa besar (LLMs) dalam kasus penggunaan perawatan kesehatan dan ilmu hayati.

Penting untuk menggunakan data kebenaran dasar dan umpan balik UKM untuk mengurangi bias dan memvalidasi keakuratan respons yang dihasilkan LLM. Bagian ini menjelaskan praktik terbaik untuk mengumpulkan dan mengkurasi data pelatihan dan pengujian. Ini juga membantu Anda menerapkan pagar pembatas dan mengukur bias dan keadilan data. Ini juga membahas tugas-tugas pemrosesan bahasa alami medis umum (NLP), seperti klasifikasi teks, pengenalan entitas bernama, dan pembuatan teks, dan metrik evaluasi terkait.

Ini juga menyajikan alur kerja untuk melakukan evaluasi LLM selama fase eksperimen pelatihan dan fase pasca-produksi. Pemantauan model dan operasi LLM adalah elemen penting dari proses evaluasi ini.

Data pelatihan dan pengujian untuk tugas NLP medis

Tugas NLP medis biasanya menggunakan corpora medis (seperti PubMed) atau informasi pasien (seperti catatan kunjungan pasien klinik) untuk mengklasifikasikan, meringkas, dan menghasilkan wawasan. Tenaga medis, dokter, administrator perawatan kesehatan, atau teknisi, bervariasi dalam keahlian dan sudut pandang. Karena subjektivitas antara tenaga medis ini, kumpulan data pelatihan dan pengujian yang lebih kecil menimbulkan risiko bias. Untuk mengurangi risiko ini, kami merekomendasikan praktik terbaik berikut:

  • Saat menggunakan solusi LLM yang telah dilatih sebelumnya, pastikan Anda memiliki jumlah data pengujian yang memadai. Data tes harus sama persis atau sangat mirip dengan data medis yang sebenarnya. Tergantung pada tugasnya, ini dapat berkisar dari 20 hingga lebih dari 100 catatan.

  • Saat menyempurnakan LLM, kumpulkan cukup banyak catatan berlabel (kebenaran dasar) dari berbagai domain medis yang SMEs ditargetkan. Titik awal umum adalah setidaknya 100 catatan berkualitas tinggi, dan kami merekomendasikan tidak lebih dari 20 catatan dari setiap UKM. Namun, mengingat kompleksitas tugas dan kriteria penerimaan akurasi Anda, lebih banyak catatan mungkin diperlukan.

  • Jika diperlukan untuk kasus penggunaan medis Anda, terapkan pagar pembatas dan ukur bias dan keadilan data. Misalnya, pastikan bahwa LLM mencegah kesalahan diagnosis karena profil ras pasien. Untuk informasi lebih lanjut, lihat Keamanan dan pagar bagian dalam panduan ini.

Banyak perusahaan penelitian dan pengembangan AI, seperti Anthropic, telah menerapkan pagar pembatas dalam model fondasi mereka untuk menghindari toksisitas. Anda dapat menggunakan deteksi toksisitas untuk memeriksa petunjuk input dan respons keluaran dari. LLMs Untuk informasi selengkapnya, lihat Deteksi toksisitas di dokumentasi Amazon Comprehend.

Dalam tugas AI generatif apa pun, ada risiko halusinasi. Anda dapat mengurangi risiko ini dengan melakukan tugas NLP, seperti klasifikasi. Anda juga dapat menggunakan teknik yang lebih canggih, seperti metrik kesamaan teks. BertScoreadalah metrik kesamaan teks yang umum diadopsi. Untuk informasi lebih lanjut tentang teknik yang dapat Anda gunakan untuk mengurangi halusinasi, lihat Survei Komprehensif Teknik Mitigasi Halusinasi dalam Model Bahasa Besar.

Metrik untuk tugas NLP medis

Anda dapat membuat metrik yang dapat diukur setelah Anda membuat data kebenaran dasar dan label yang disediakan SME untuk pelatihan dan pengujian. Memeriksa kualitas melalui proses kualitatif, seperti stress testing dan meninjau hasil LLM, sangat membantu untuk pengembangan cepat. Namun, metrik bertindak sebagai tolok ukur kuantitatif yang mendukung operasi LLM masa depan dan bertindak sebagai tolok ukur kinerja untuk setiap rilis produksi.

Memahami tugas medis sangat penting. Metrik biasanya dipetakan ke salah satu tugas NLP umum berikut: