Ikhtisar kerangka kerja

Kerangka analisis ketahanan dikembangkan dengan mengidentifikasi sifat ketahanan yang diinginkan dari beban kerja. Properti yang diinginkan adalah hal-hal yang Anda inginkan untuk menjadi kenyataan tentang sistem. Ketahanan biasanya diukur dengan ketersediaan, sehingga lima properti adalah karakteristik dari sistem terdistribusi yang sangat tersedia: redundansi, kapasitas yang cukup, output tepat waktu, output yang benar, dan isolasi kesalahan. Properti ini ditunjukkan pada diagram berikut.

Hubungan sifat ketahanan yang diinginkan

Redundansi — Toleransi kesalahan dicapai melalui redundansi yang menghilangkan titik tunggal kegagalan (). SPOFs Redundansi dapat berkisar dari komponen cadangan di beban kerja Anda hingga replika penuh dari seluruh tumpukan aplikasi Anda. Ketika Anda mempertimbangkan redundansi untuk aplikasi Anda, penting untuk mempertimbangkan tingkat redundansi yang disediakan oleh infrastruktur, penyimpanan data, dan dependensi yang Anda gunakan. Misalnya, Amazon DynamoDB dan Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3) menyediakan redundansi dengan mereplikasi data di beberapa Availability Zone di AWS Lambda Region, dan menjalankan fungsi Anda di beberapa node pekerja di beberapa Availability Zone. Untuk setiap layanan yang Anda gunakan, pertimbangkan apa yang disediakan oleh layanan dan apa yang perlu Anda rancang.
Kapasitas yang memadai — Beban kerja Anda membutuhkan sumber daya yang cukup untuk berfungsi sebagaimana dimaksud. Sumber daya termasuk memori, siklus CPU, utas, penyimpanan, throughput, kuota layanan, dan banyak lainnya.
Output tepat waktu — Ketika pelanggan menggunakan beban kerja Anda, mereka mengharapkannya untuk menjalankan fungsi yang dimaksudkan dalam jumlah waktu yang wajar. Kecuali layanan menyediakan perjanjian tingkat layanan (SLA) untuk latensi, harapan mereka umumnya didasarkan pada bukti empiris — yaitu, pengalaman mereka sendiri. Pengalaman pelanggan rata-rata ini biasanya dianggap sebagai latensi median (P50) dalam sistem Anda. Jika beban kerja Anda memakan waktu lebih lama dari yang diharapkan, latensi ini dapat memengaruhi pengalaman pelanggan Anda.
Output yang benar — Output yang benar dari perangkat lunak beban kerja Anda diperlukan agar dapat menyediakan fungsionalitas yang dimaksudkan. Hasil yang salah atau tidak lengkap bisa lebih buruk daripada tidak ada respons sama sekali.
Isolasi kesalahan — Isolasi kesalahan membatasi ruang lingkup dampak ke wadah kesalahan yang dimaksudkan ketika kegagalan terjadi. Ini memastikan bahwa komponen spesifik dari beban kerja Anda gagal bersama sambil mencegah kegagalan mengalir ke komponen lain yang tidak diinginkan. Ini juga membantu membatasi ruang lingkup dampak bagi pelanggan dari beban kerja Anda. Isolasi kesalahan agak berbeda dari empat properti sebelumnya, karena menerima bahwa kegagalan telah terjadi tetapi harus dibendung. Anda dapat membuat isolasi kesalahan dalam infrastruktur, dependensi, dan fungsi perangkat lunak Anda.

Ketika properti yang diinginkan dilanggar, itu dapat menyebabkan beban kerja, atau dianggap, tidak tersedia. Berdasarkan properti ketahanan yang diinginkan ini dan pengalaman kami bekerja dengan banyak AWS pelanggan, kami telah mengidentifikasi lima kategori kegagalan umum: titik kegagalan tunggal, beban berlebihan, latensi berlebihan, kesalahan konfigurasi dan bug, dan nasib bersama, yang kami singkat SEEMS. Ini memberikan metode yang konsisten untuk mengkategorikan mode kegagalan potensial dan dijelaskan dalam tabel berikut.

Kategori kegagalan	Melanggar	Definisi
Titik kegagalan tunggal (SPOFs)	Redundansi	Kegagalan dalam satu komponen mengganggu sistem karena kurangnya redundansi komponen.
Beban berlebihan	Kapasitas yang cukup	Konsumsi sumber daya yang berlebihan melalui permintaan atau lalu lintas yang berlebihan mencegah sumber daya melakukan fungsi yang diharapkan. Ini dapat mencakup mencapai batas dan kuota, yang menyebabkan pembatasan dan penolakan permintaan.
Latensi berlebihan	Output tepat waktu	Pemrosesan sistem atau latensi lalu lintas jaringan melebihi waktu yang diharapkan, tujuan tingkat layanan (SLOs), atau perjanjian tingkat layanan (). SLAs
Kesalahan konfigurasi dan bug	Output yang benar	Bug perangkat lunak atau kesalahan konfigurasi sistem menyebabkan keluaran yang salah.
Nasib bersama	Isolasi kesalahan	Kesalahan yang disebabkan oleh salah satu kategori kegagalan sebelumnya melintasi batas isolasi kesalahan yang dimaksudkan dan kaskade ke bagian lain dari sistem atau ke pelanggan lain.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pengantar

Memahami beban kerja