Ikhtisar kerangka kerja - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Ikhtisar kerangka kerja

Kerangka analisis ketahanan dikembangkan dengan mengidentifikasi sifat ketahanan yang diinginkan dari beban kerja. Properti yang diinginkan adalah hal-hal yang Anda inginkan untuk menjadi kenyataan tentang sistem. Ketahanan biasanya diukur dengan ketersediaan, sehingga lima properti adalah karakteristik dari sistem terdistribusi yang sangat tersedia: redundansi, kapasitas yang cukup, output tepat waktu, output yang benar, dan isolasi kesalahan. Properti ini ditunjukkan pada diagram berikut.

Hubungan sifat ketahanan yang diinginkan
  • RedundansiToleransi kesalahan dicapai melalui redundansi yang menghilangkan titik kegagalan tunggal (sPOF). Redundansi dapat berkisar dari komponen cadangan di beban kerja Anda hingga replika penuh dari seluruh tumpukan aplikasi Anda. Ketika Anda mempertimbangkan redundansi untuk aplikasi Anda, penting untuk mempertimbangkan tingkat redundansi yang disediakan oleh infrastruktur, penyimpanan data, dan dependensi yang Anda gunakan. Misalnya, Amazon DynamoDB dan Amazon Simple Storage Service (Amazon S3) menyediakan redundansi dengan mereplikasi data di beberapa Availability Zone di suatu Wilayah, danAWS Lambdamenjalankan fungsi Anda di beberapa node pekerja di beberapa Availability Zone. Untuk setiap layanan yang Anda gunakan, pertimbangkan apa yang disediakan oleh layanan dan apa yang perlu Anda rancang.

  • Kapasitas yang cukupBeban kerja Anda membutuhkan sumber daya yang cukup untuk berfungsi sebagaimana dimaksud. Sumber daya termasuk memori, siklus CPU, utas, penyimpanan, throughput, kuota layanan, dan banyak lainnya.

  • Output tepat waktu— Ketika pelanggan menggunakan beban kerja Anda, mereka mengharapkannya untuk menjalankan fungsi yang dimaksudkan dalam jumlah waktu yang wajar. Kecuali jika layanan menyediakan perjanjian tingkat layanan (SLA) untuk latensi, harapan mereka umumnya didasarkan pada bukti empiris — yaitu, pengalaman mereka sendiri. Inipengalaman pelanggan rata-ratabiasanya dianggap sebagai latensi median (P50) di sistem Anda. Jika beban kerja Anda memakan waktu lebih lama dari yang diharapkan, latensi ini dapat memengaruhi pengalaman pelanggan Anda.

  • Output yang benar— Output yang benar dari perangkat lunak beban kerja Anda diperlukan agar dapat menyediakan fungsionalitas yang dimaksudkan. Hasil yang salah atau tidak lengkap bisa lebih buruk daripada tidak ada respons sama sekali.

  • Isolasi kesalahan— Isolasi kesalahan membatasi ruang lingkup dampak ke wadah kesalahan yang dimaksudkan ketika kegagalan terjadi. Ini memastikan bahwa komponen spesifik dari beban kerja Anda gagal bersama sambil mencegah kegagalan mengalir ke komponen lain yang tidak diinginkan. Ini juga membantu membatasi ruang lingkup dampak bagi pelanggan dari beban kerja Anda. Isolasi kesalahan agak berbeda dari empat properti sebelumnya, karena menerima bahwa kegagalan telah terjadi tetapi harus dibendung. Anda dapat membuat isolasi kesalahan dalam infrastruktur, dependensi, dan fungsi perangkat lunak Anda.

Ketika properti yang diinginkan dilanggar, itu dapat menyebabkan beban kerja, atau dianggap, tidak tersedia. Berdasarkan sifat ketahanan yang diinginkan ini dan pengalaman kami bekerja dengan banyak orangAWSpelanggan, kami telah mengidentifikasi lima kategori kegagalan umum: titik kegagalan tunggal, beban berlebihan, latensi berlebihan, kesalahan konfigurasi dan bug, dan nasib bersama, yang kami singkat SEEMS. Ini memberikan metode yang konsisten untuk mengkategorikan mode kegagalan potensial dan dijelaskan dalam tabel berikut.

Kategori kegagalan

Melanggar

Definisi

Titik kegagalan tunggal (SPOFs)

Redundansi

Kegagalan dalam satu komponen mengganggu sistem karena kurangnya redundansi komponen.

Beban berlebihan

Kapasitas yang cukup

Konsumsi sumber daya yang berlebihan melalui permintaan atau lalu lintas yang berlebihan mencegah sumber daya melakukan fungsi yang diharapkan. Ini dapat mencakup mencapai batas dan kuota, yang menyebabkan pembatasan dan penolakan permintaan.

Latensi berlebihan

Output tepat waktu

Pemrosesan sistem atau latensi lalu lintas jaringan melebihi waktu yang diharapkan, tujuan tingkat layanan (SLO), atau perjanjian tingkat layanan (SLA).

Kesalahan konfigurasi dan bug

Output yang benar

Bug perangkat lunak atau kesalahan konfigurasi sistem menyebabkan keluaran yang salah.

Nasib bersama

Isolasi kesalahan

Kesalahan yang disebabkan oleh salah satu kategori kegagalan sebelumnya melintasi batas isolasi kesalahan yang dimaksudkan dan kaskade ke bagian lain dari sistem atau ke pelanggan lain.