Cara Evidently menghitung hasil - Amazon CloudWatch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cara Evidently menghitung hasil

Anda dapat menggunakan pengujian Amazon CloudWatch Evidently A/B sebagai alat untuk pengambilan keputusan berbasis data. Dalam sebuah pengujian A/B, pengguna secara acak ditetapkan ke kelompok kontrol (juga disebut variasi default), atau salah satu kelompok perlakuan (juga disebut variasi yang diuji). Sebagai contoh, pengguna dalam grup kontrol mungkin akan mendapatkan pengalaman situs web, layanan, atau aplikasi dengan cara yang sama seperti yang mereka lakukan sebelum percobaan dimulai. Sementara itu, pengguna dalam kelompok perlakuan mungkin akan mengalami perubahan.

CloudWatch Terbukti mendukung hingga lima variasi berbeda dalam sebuah eksperimen. Evidently secara acak menetapkan lalu lintas ke variasi-variasi ini. Dengan cara ini, Anda akan dapat melacak metrik-metrik bisnis (seperti pendapatan) dan metrik-metrik performa (seperti latensi) untuk masing-masing grup. Evidently melakukan hal-hal berikut:

  • Membandingkan perlakuan dengan kontrol. (Sebagai contoh, membandingkan apakah pendapatan naik atau turun dengan proses checkout baru.)

  • Menunjukkan apakah perbedaan yang diamati antara perlakuan dan kontrol signifikan. Untuk ini, Evidently menawarkan dua pendekatan: tingkat signifikansi Frequentist dan probabilitas Bayesian.

Mengapa menggunakan pendekatan Frequentist dan Bayesian?

Pertimbangkan sebuah kasus di mana perlakuan tidak berpengaruh dibandingkan dengan kontrol, atau kasus di mana perlakuan identik dengan kontrol (pengujian A/A). Anda masih akan mengamati sebuah perbedaan kecil antara perlakuan dan kontrol dalam data. Hal ini karena peserta pengujian terdiri dari sampel pengguna yang terbatas, mewakili sebagian kecil dari semua pengguna situs web, layanan, atau aplikasi. Tingkat signifikansi Frequentist dan probabilitas Bayesian dapat memberikan wawasan tentang apakah perbedaan yang diamati itu signifikan atau hanya karena kebetulan semata.

Evidently mempertimbangkan hal-hal berikut untuk menentukan apakah perbedaan yang diamati bersifat signifikan atau tidak:

  • Seberapa besar perbedaannya

  • Berapa banyak sampel yang menjadi bagian dari pengujian

  • Bagaimana data didistribusikan

Analisis Frequentist di Evidently

Evidently menggunakan pengujian berurutan, hal ini untuk mencegah masalah yang biasa terjadi, pengintipan, sebuah perangkap umum statistik frequentist. Pengintipan adalah praktik memeriksa hasil pengujian A/B yang sedang berlangsung untuk menghentikannya dan membuat keputusan berdasarkan hasil yang diamati. Untuk informasi selengkapnya tentang pengujian berurutan, silakan lihat Urutan kepercayaan time-uniform, nonparametrik, nonasimtotik oleh Howard dkk. (Ann. Statist. 49 (2) 1055 - 1080, 2021).

Karena hasil-hasil dari Evidently valid kapan saja (hasil yang valid kapan saja), Anda dapat mengintip hasil selama percobaan dan masih bisa menarik kesimpulan yang masuk akal. Hal ini akan dapat mengurangi beberapa biaya percobaan, karena Anda dapat menghentikan percobaan sebelum waktu yang dijadwalkan jika hasilnya sudah memiliki signifikansi.

Evidently menghasilkan tingkat signifikansi yang valid kapan saja dan interval kepercayaan 95% yang valid kapan saja dari perbedaan antara variasi yang diuji dan variasi default dalam metrik target. Kolom Hasil dalam hasil percobaan tersebut menunjukkan performa variasi yang diuji, yang dapat berupa salah satu dari berikut:

  • Tidak meyakinkan – Tingkat signifikansi kurang dari 95%

  • Lebih baik – Tingkat signifikansi 95% atau lebih tinggi dan salah satu dari hal berikut ini benar:

    • Batas bawah interval kepercayaan 95% berada pada level lebih tinggi dari nol dan metriknya harus naik

    • Batas atas interval kepercayaan 95% berada pada level lebih rendah dari nol dan metriknya harus turun

  • Lebih buruk – Tingkat signifikansi 95% atau lebih tinggi dan salah satu dari hal berikut ini benar:

    • Batas atas interval kepercayaan 95% berada pada level lebih tinggi dari nol dan metriknya harus naik

    • Batas bawah interval kepercayaan 95% berada pada level lebih rendah dari nol dan metriknya harus turun

  • Terbaik – Percobaan memiliki dua variasi yang diuji atau lebih selain dari variasi default, dan kondisi–kondisi berikut terpenuhi:

    • Variasi memenuhi syarat untuk penunjukan yang Lebih baik

    • Salah satu dari hal berikut adalah benar:

      • Batas bawah interval kepercayaan 95% berada pada level yang lebih tinggi dari batas atas interval kepercayaan 95% dari semua variasi lainnya dan metriknya harus naik

      • Batas atas interval kepercayaan 95% berada pada level lebih rendah dari batas bawah interval kepercayaan 95% dari semua variasi lainnya dan metriknya harus turun

Analisis Bayesian dalam Evidently

Dengan analisis Bayesian, Anda akan dapat mengkalkulasi probabilitas bahwa rata-rata dalam variasi yang diuji lebih besar atau lebih kecil dari rata-rata dalam variasi default. Evidently melakukan inferensi Bayesian untuk rata-rata metrik target dengan menggunakan prior konjugat. Dengan prior konjugat, Evidently akan dapat menyimpulkan distribusi posterior yang diperlukan untuk analisis Bayesian dengan lebih efisien.

Evidently akan menunggu sampai tanggal akhir percobaan untuk menghitung hasil dari analisis Bayesian. Halaman hasil menampilkan hal berikut:

  • probabilitas peningkatan – Probabilitas bahwa rata–rata metrik dalam variasi yang diuji setidaknya 3% lebih besar dari rata–rata dalam variasi default

  • probabilitas penurunan – Probabilitas bahwa rata–rata metrik dalam variasi yang diuji setidaknya 3% lebih kecil dari rata–rata dalam variasi bawaan

  • probabilitas tidak ada perubahan – Probabilitas bahwa rata–rata metrik dalam variasi yang diuji berada pada ±3% dari rata–rata dalam variasi bawaan

Kolom Hasil menunjukkan performa variasi, dan dapat berupa salah satu dari yang berikut:

  • Lebih baik – Probabilitas kenaikan setidaknya 90% dan metriknya harus naik, atau probabilitas penurunan setidaknya 90% dan metriknya harus turun

  • Lebih buruk – Probabilitas penurunan setidaknya 90% dan metriknya harus naik, atau probabilitas kenaikan setidaknya 90% dan metriknya harus turun