Jenis tugas yang didukung Jenis gangguan Nilai yang dihitung

Kekokohan Semantik

Mengevaluasi seberapa banyak output model Anda berubah sebagai hasil dari perubahan kecil yang mempertahankan semantik dalam input. Foundation Model Evaluations (FMEval) mengukur bagaimana output model Anda berubah sebagai akibat dari kesalahan ketik keyboard, perubahan acak ke huruf besar, dan penambahan acak atau penghapusan spasi putih.

Amazon SageMaker AI mendukung menjalankan evaluasi ketahanan semantik dari SageMaker Amazon Studio atau menggunakan perpustakaan. fmeval

Menjalankan evaluasi di Studio: Pekerjaan evaluasi yang dibuat di Studio menggunakan default yang dipilih sebelumnya untuk mengevaluasi kinerja model dengan cepat. Evaluasi ketahanan semantik untuk generasi terbuka tidak dapat dibuat di Studio. Mereka harus dibuat menggunakan fmeval perpustakaan.
Menjalankan evaluasi menggunakan fmeval pustaka: Pekerjaan evaluasi yang dibuat menggunakan fmeval pustaka menawarkan opsi yang diperluas untuk mengonfigurasi evaluasi kinerja model.

Jenis tugas yang didukung

Evaluasi ketahanan semantik didukung untuk jenis tugas berikut dengan kumpulan data bawaan yang terkait. Pengguna juga dapat membawa dataset mereka sendiri. Secara default, SageMaker AI mengambil sampel 100 titik data acak dari kumpulan data untuk evaluasi toksisitas. Saat menggunakan fmeval perpustakaan, ini dapat disesuaikan dengan meneruskan num_records parameter ke evaluate metode. Untuk informasi tentang menyesuaikan evaluasi pengetahuan faktual menggunakan fmeval perpustakaan, lihat. Sesuaikan alur kerja Anda menggunakan pustaka fmeval

Jenis tugas	Kumpulan data bawaan	Catatan
Ringkasan teks	Gigaword, Dataset Laporan Pemerintah
Menjawab pertanyaan	BoolQ ,, TriviaQA NaturalQuestions
Klasifikasi	Ulasan Pakaian E-Commerce Wanita
Generasi terbuka	T- REx, TEBAL, WikiText-2

Jenis gangguan

Evaluasi ketahanan semantik membuat salah satu dari tiga gangguan berikut. Anda dapat memilih jenis gangguan saat mengonfigurasi pekerjaan evaluasi. Ketiga gangguan diadaptasi dari NL-augmenter.

Contoh masukan model:A quick brown fox jumps over the lazy dog.

Butter Fingers: Kesalahan ketik diperkenalkan karena menekan tombol keyboard yang berdekatan.
```
W quick brmwn fox jumps over the lazy dig
```
Random Upper Case: Mengubah huruf yang dipilih secara acak menjadi huruf besar.
```
A qUick brOwn fox jumps over the lazY dog
```
Whitespace Add Remove: Menambahkan dan menghapus spasi putih secara acak dari input.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Nilai yang dihitung

Evaluasi ini mengukur perubahan kinerja antara output model berdasarkan input asli yang tidak terganggu dan output model berdasarkan serangkaian versi input yang terganggu. Untuk informasi tentang struktur prompt yang diperlukan untuk evaluasi, lihatBuat pekerjaan evaluasi model otomatis di Studio.

Perubahan kinerja adalah perbedaan rata-rata antara skor input asli dan skor input yang terganggu. Skor yang diukur untuk mengevaluasi perubahan kinerja ini bergantung pada jenis tugas:

Ringkasan

Untuk tugas meringkas, ketahanan semantik mengukur skor berikut saat menggunakan input yang terganggu, serta Delta untuk setiap skor. Skor Delta mewakili perbedaan absolut rata-rata antara skor input asli dan skor input yang terganggu.

Skor Delta ROUGE: Perbedaan absolut rata-rata dalam skor ROUGE untuk input asli dan terganggu. Skor ROUGE dihitung dengan cara yang sama seperti skor ROUGE di. Ringkasan
Skor Delta METEOR: Perbedaan absolut rata-rata dalam skor METEOR untuk input asli dan yang terganggu. Skor METEOR dihitung dengan cara yang sama seperti skor METEOR di. Ringkasan
Delta BERTScore: Perbedaan absolut rata-rata BERTScore untuk input asli dan terganggu. Itu BERTScores dihitung dengan cara yang sama seperti BERTScore diRingkasan.

Menjawab pertanyaan

Untuk tugas menjawab pertanyaan, ketahanan semantik mengukur skor berikut saat menggunakan input yang terganggu, serta Delta untuk setiap skor. Skor Delta mewakili perbedaan absolut rata-rata antara skor input asli dan skor input yang terganggu.

Skor Delta F1 Over Words: Perbedaan absolut rata-rata dalam skor F1 Over Words untuk input asli dan terganggu. Skor F1 Over Words dihitung dengan cara yang sama seperti skor F1 Over Words di. Menjawab pertanyaan
Skor Delta Exact Match: Perbedaan absolut rata-rata dalam skor Exact Match untuk input asli dan terganggu. Skor Exact Match dihitung dengan cara yang sama seperti skor Exact Match diMenjawab pertanyaan.
Skor Delta Quasi Exact Match: Perbedaan absolut rata-rata dalam skor Quasi Exact Match untuk input asli dan terganggu. Skor Quasi Exact Match dihitung dengan cara yang sama seperti skor Quasi Exact Match di Menjawab pertanyaan
Skor Delta Precision Over Words: Perbedaan absolut rata-rata dalam skor Precision Over Words untuk input asli dan terganggu. Skor Precision Over Words dihitung dengan cara yang sama seperti skor Precision Over Words diMenjawab pertanyaan.
Skor Delta Recall Over Words: Perbedaan absolut rata-rata dalam skor Recall Over Words untuk input asli dan terganggu. Skor Recall Over Words dihitung dengan cara yang sama seperti skor Recall Over Words diMenjawab pertanyaan.

Klasifikasi

Untuk tugas klasifikasi, ketahanan semantik mengukur akurasi saat menggunakan input yang terganggu, serta Delta untuk setiap skor. Skor Delta mewakili perbedaan absolut rata-rata antara skor input asli dan skor input yang terganggu.

Skor Akurasi Delta: Perbedaan absolut rata-rata dalam skor Akurasi untuk input asli dan yang terganggu. Skor Akurasi dihitung dengan cara yang sama seperti skor Akurasi diKlasifikasi.

Generasi terbuka

Evaluasi ketahanan semantik untuk generasi terbuka tidak dapat dibuat di Studio. Mereka harus dibuat menggunakan fmeval perpustakaan dengan GeneralSemanticRobustness. Alih-alih menghitung perbedaan skor untuk generasi terbuka, evaluasi ketahanan semantik mengukur perbedaan dalam generasi model antara input asli dan input yang terganggu. Perbedaan ini diukur dengan menggunakan strategi berikut:

Tingkat kesalahan kata (WER): Mengukur perbedaan sintaksis antara dua generasi dengan menghitung persentase kata yang harus diubah untuk mengubah generasi pertama menjadi generasi kedua. Untuk informasi lebih lanjut tentang perhitungan WER, lihat HuggingFace artikel tentang Tingkat Kesalahan Word.
- Sebagai contoh:
  - Masukan 1: “Ini kucing”
  - Masukan 2: “Ini adalah anjing'
  - Jumlah kata yang harus diubah: 1/4, atau 25%
  - WER: 0.25
BERTScore Dissimilarity (BSD): Mengukur perbedaan semantik antara dua generasi dengan mengurangi dari 1. BERTScore BSD dapat menjelaskan fleksibilitas linguistik tambahan yang tidak termasuk dalam WER karena kalimat semantik yang mirip dapat disematkan lebih dekat satu sama lain.
- Misalnya, sementara WER sama ketika generasi 2 dan generasi 3 secara individual dibandingkan dengan generasi 1, skor BSD berbeda untuk memperhitungkan makna semantik.
  - gen1 (masukan asli): "It is pouring down today"
  - gen2 (masukan terganggu 1): "It is my birthday today"
  - gen3 (masukan terganggu 2): "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- Opsi berikut didukung sebagai bagian dari GeneralSemanticRobustnessConfigparameter:
  - model_type_for_bertscore: Nama model yang akan digunakan untuk penilaian. BERTScore Ketidaksamaan saat ini hanya mendukung model berikut:
    
    “microsoft/deberta-xlarge-mnli" (default)
    
    "roberta-large-mnli"

Model non-deterministik

Ketika strategi pembuatan model non-deterministik, seperti LLMs dengan suhu bukan nol, output dapat berubah bahkan jika inputnya sama. Dalam kasus ini, perbedaan pelaporan antara output model untuk input asli dan yang terganggu dapat menunjukkan ketahanan yang rendah secara artifial. Untuk memperhitungkan strategi non-deterministik, evaluasi ketahanan semantik menormalkan skor ketidaksamaan dengan mengurangi perbedaan rata-rata antara output model berdasarkan input yang sama.

max(0,d−dbase)

d: skor ketidaksamaan (Tingkat Kesalahan Kata atau BERTScore Ketidaksamaan) antara dua generasi.
dbase: perbedaan antara output model pada input yang sama.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Stereotip cepat

Toksisitas