Konsep kunci pemulihan instans otomatis Perbedaan antara pemulihan otomatis yang disederhanakan dan pemulihan berbasis CloudWatch tindakan Membangun sistem yang tangguh

Pemulihan instans otomatis

penting

Bagian ini menjelaskan cara mengkonfigurasi mekanisme pemulihan secara proaktif pada instans EC2. Mekanisme pemulihan ini dirancang untuk mengembalikan ketersediaan instance ketika AWS mendeteksi masalah perangkat keras atau perangkat lunak yang mendasari yang menyebabkan pemeriksaan status sistem gagal. Jika saat ini Anda mengalami masalah saat mengakses instans, lihat Memecahkan masalah instans EC2.

Jika AWS mendeteksi bahwa instans tidak tersedia karena masalah perangkat keras atau perangkat lunak yang mendasarinya, ada dua mekanisme yang dapat secara otomatis memulihkan ketersediaan instans — pemulihan otomatis yang disederhanakan dan pemulihan berbasis CloudWatch tindakan Amazon. Memulihkan ketersediaan instance juga dikenal sebagai pemulihan instance.

Selama proses pemulihan instans, AWS akan mencoba untuk memindahkan instance Anda dari host dengan masalah perangkat keras atau perangkat lunak yang mendasarinya ke host yang berbeda. Jika berhasil, proses pemulihan instance akan muncul ke instance sebagai reboot yang tidak direncanakan. Anda dapat memverifikasi apakah pemulihan instans terjadi.

Jika proses pemulihan tidak berhasil, instance mungkin terus berjalan di host dengan masalah perangkat keras atau perangkat lunak yang mendasarinya. Dalam hal ini, intervensi manual diperlukan. Jika instans menjadi tidak dapat dijangkau atau pemeriksaan status sistem terus gagal, kami sarankan Anda menghentikan dan memulai instance secara manual. Ketika Anda memulai sebuah instance, biasanya dimigrasikan ke komputer host baru yang mendasarinya. Namun, tidak seperti pemulihan instans otomatis, di mana instance mempertahankan IPv4 alamat publiknya, instance yang dimulai ulang menerima IPv4 alamat publik baru kecuali jika memiliki alamat IP Elastis.

Untuk mendapatkan manfaat dari mekanisme pemulihan otomatis, mereka harus dikonfigurasi terlebih dahulu pada sebuah instance sebelum pemeriksaan status sistem gagal. Secara default, pemulihan otomatis yang disederhanakan diaktifkan selama peluncuran instance. Anda dapat mengonfigurasi pemulihan berbasis CloudWatch tindakan Amazon secara opsional setelah peluncuran. Memiliki salah satu mekanisme ini yang dikonfigurasi membuat instans Anda lebih tangguh.

Pemulihan otomatis yang disederhanakan dan pemulihan berbasis CloudWatch tindakan Amazon hanya tersedia pada instans yang didukung. Untuk informasi selengkapnya, lihat Persyaratan untuk mengaktifkan pemulihan otomatis yang disederhanakan dan Persyaratan untuk mengaktifkan pemulihan berbasis CloudWatch tindakan.

Awas

Ketika AWS memulihkan instans Anda karena masalah perangkat keras atau perangkat lunak yang mendasarinya, perhatikan konsekuensi berikut: data yang disimpan dalam memori volatil (RAM) akan hilang dan uptime sistem operasi akan dimulai dari nol. Selanjutnya, dengan pemulihan berbasis CloudWatch tindakan, data pada volume penyimpanan instance juga akan hilang. Untuk membantu melindungi dari kehilangan data, kami sarankan Anda secara teratur membuat cadangan data berharga. Untuk informasi selengkapnya tentang praktik terbaik pencadangan dan pemulihan untuk instans EC2, lihat Praktik terbaik untuk Amazon EC2.

Mekanisme pemulihan instans otomatis dirancang untuk instance individual. Untuk panduan tentang membangun sistem yang tangguh, lihat. Membangun sistem yang tangguh

Topik

Konsep kunci pemulihan instans otomatis

Pemulihan instans otomatis adalah fitur Amazon EC2 yang secara otomatis memulihkan ketersediaan instans saat terjadi kegagalan perangkat keras atau perangkat lunak yang mendasari, meningkatkan ketahanan dan keandalan instans EC2 Anda.

Berikut ini adalah konsep kunci dari pemulihan instans otomatis:

Opsi konfigurasi

Dua mekanisme dapat dikonfigurasi untuk mendukung pemulihan instans otomatis:

Pemulihan otomatis yang disederhanakan: Diaktifkan secara default pada instance yang didukung.
CloudWatch pemulihan berbasis tindakan: Memerlukan konfigurasi manual pada instance yang didukung.

Pemeriksaan status sistem

Pemeriksaan status sistem secara otomatis memantau AWS infrastruktur tempat instans EC2 Anda berjalan.

Jika pemeriksaan status sistem gagal, AWS memulai pemulihan instans otomatis, yang mencoba memigrasikan instance yang terpengaruh ke perangkat keras yang berbeda.
Pemeriksaan status sistem yang gagal menunjukkan masalah dengan perangkat keras atau perangkat lunak host, dan bukan masalah dengan instance itu sendiri. Pemulihan instans otomatis dapat memulihkan instance yang gagal dalam pemeriksaan status sistem. Namun, pemulihan instans otomatis tidak beroperasi jika hanya pemeriksaan status instance yang gagal.
Untuk perbedaan antara pemeriksaan status instance dan sistem, lihat Jenis pemeriksaan status.

Contoh masalah perangkat keras atau perangkat lunak yang mendasarinya

Masalah perangkat keras atau perangkat lunak yang dapat menyebabkan pemeriksaan status sistem gagal termasuk hilangnya konektivitas jaringan, hilangnya daya sistem, masalah perangkat lunak pada host fisik, dan masalah perangkat keras pada host fisik yang memengaruhi jangkauan jaringan.

Karakteristik contoh yang dipulihkan

Sebuah instance yang dipulihkan identik dengan instance asli, kecuali untuk elemen yang hilang.

Elemen yang diawetkan:

ID Instans
Alamat IP publik, pribadi, dan Elastis
Metadata instans
Grup penempatan
Volume EBS terlampir
Zona Ketersediaan

Elemen yang hilang:

Data disimpan dalam memori volatil (RAM)
Data yang disimpan pada volume penyimpanan instance (hanya berlaku untuk pemulihan berbasis CloudWatch tindakan)
Uptime sistem operasi disetel ulang ke nol

Memantau pemeriksaan status sistem dengan CloudWatch

Metrik StatusCheckFailed_System di CloudWatch menunjukkan apakah pemeriksaan status sistem lulus atau gagal.

Nilai metrik:

0 — Pemeriksaan status sistem lulus.
1 — Pemeriksaan status sistem gagal.

Acara di Dasbor Health

Selama upaya pemulihan instans otomatis, AWS kirimkan peristiwa ke Anda Dasbor Health berdasarkan mekanisme pemulihan yang dikonfigurasi dan hasilnya:

Pemulihan otomatis yang disederhanakan
- Acara sukses: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_SUCCESS
- Peristiwa kegagalan: AWS_EC2_SIMPLIFIED_AUTO_RECOVERY_FAILURE
CloudWatch pemulihan berbasis tindakan
- Acara sukses: AWS_EC2_INSTANCE_AUTO_RECOVERY_SUCCESS
- Peristiwa kegagalan: AWS_EC2_INSTANCE_AUTO_RECOVERY_FAILURE

Perbedaan antara pemulihan otomatis yang disederhanakan dan pemulihan berbasis CloudWatch tindakan

Tabel berikut membandingkan perbedaan utama antara pemulihan otomatis yang disederhanakan dan pemulihan berbasis CloudWatch tindakan.

Titik perbandingan	Pemulihan otomatis yang disederhanakan	CloudWatch pemulihan berbasis tindakan
Konfigurasi	Diaktifkan secara default pada instance yang didukung	Membutuhkan konfigurasi CloudWatch alarm dan tindakan secara manual
Fleksibilitas	Perilaku pemulihan tetap dikelola oleh AWS	Tindakan dan kondisi yang dapat disesuaikan
Notifikasi	Pemberitahuan dasar melalui Dasbor Health	Pemberitahuan yang dapat disesuaikan melalui SNS
Ukuran contoh logam	Dikecualikan	Termasuk
Volume penyimpanan instans terlampir saat peluncuran	Tidak didukung untuk instance yang melampirkan volume penyimpanan instance saat peluncuran	Didukung pada jenis instans yang dipilih. Perhatikan bahwa data pada volume penyimpanan instance hilang selama pemulihan instance.
Waktu pemulihan	Upaya pemulihan standar	Upaya pemulihan lebih cepat daripada pemulihan otomatis yang disederhanakan
Masalah host teratasi selama migrasi	Migrasi mungkin dibatalkan dan instance tetap berada di host asli	Migrasi berlanjut ke host baru
Biaya	Tidak ada biaya tambahan	Mungkin dikenakan biaya CloudWatch

Membangun sistem yang tangguh

Meskipun pemulihan otomatis yang disederhanakan dan pemulihan berbasis CloudWatch tindakan efektif untuk menjaga ketersediaan instans individu, AWS merekomendasikan penerapan arsitektur ketersediaan tinggi yang memungkinkan failover lalu lintas ke instance yang sehat.

Untuk mencapai hal ini, pertimbangkan untuk menggunakan AWS layanan seperti Elastic Load Balancing (yang mendistribusikan lalu lintas masuk di beberapa instans EC2) dan Amazon EC2 Auto Scaling (yang secara otomatis menyesuaikan jumlah instans berdasarkan permintaan dan kesehatan).

Untuk informasi selengkapnya tentang membangun sistem yang tangguh dan toleran terhadap kesalahan dengan instans EC2, lihat sumber daya berikut:

Kembali ke Dasar: Merancang untuk Kegagalan dengan EC2 di saluran AWS YouTube
Arsitektur Pemulihan Bencana (DR) pada AWS, Bagian I: Strategi Pemulihan di Cloud di situs Blog AWS Arsitektur
Panduan Pengguna Penyeimbang Beban Aplikasi
Panduan Pengguna Penskalaan Otomatis Amazon EC2
REL11- BP02 Gagal menggunakan sumber daya yang sehat dalam Reliability Pillar AWS Well-Architected Framework

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Pensiun

Verifikasi apakah pemulihan otomatis terjadi