Perspektif operasi: kondisi dan ketersediaan - Gambaran Umum AWS Cloud Adoption Framework

Perspektif operasi: kondisi dan ketersediaan

Perspektif operasi berfokus pada memastikan bahwa layanan cloud disampaikan pada tingkat yang disepakati dengan pemangku kepentingan bisnis Anda. Mengotomatiskan dan mengoptimalkan operasi akan memungkinkan Anda untuk menskalakan secara efektif sekaligus meningkatkan keandalan beban kerja Anda. Perspektif ini terdiri dari sembilan kemampuan yang ditunjukkan pada gambar berikut. Pemangku kepentingan umum termasuk pemimpin infrastruktur dan operasi, insinyur keandalan situs, dan manajer layanan teknologi informasi.

Diagram yang menggambarkan kemampuan perspektif AWS CAF Operations.

Kemampuan perspektif AWS CAF Operations

  • Observabilitas – Dapatkan wawasan yang dapat ditindaklanjuti dari infrastruktur dan data aplikasi Anda. Ketika Anda beroperasi dengan kecepatan dan skala cloud, Anda harus dapat menemukan masalah saat muncul, idealnya sebelum mengganggu pengalaman pelanggan. Kembangkan telemetri (log, metrik, dan jejak) yang diperlukan untuk memahami keadaan internal dan kondisi beban kerja Anda. Pantau titik akhir aplikasi, menilai dampaknya kepada pengguna akhir, dan buat peringatan saat pengukuran melebihi ambang batas.

    Gunakan pemantauan sintetis untuk membuat kenari (skrip yang dapat dikonfigurasi yang berjalan sesuai jadwal) untuk memantau titik akhir dan API Anda. Menerapkan jejak untuk melacak permintaan saat mereka melakukan perjalanan melalui seluruh aplikasi dan mengidentifikasi hambatan atau masalah kinerja. Dapatkan wawasan tentang sumber daya, server, database, dan jaringan menggunakan metrik dan log. Siapkan analisis waktu nyata data deret waktu untuk memahami penyebab dampak kinerja. Sentralisasi data dalam satu dasbor, memberi Anda pandangan terpadu tentang informasi penting tentang beban kerja dan kinerjanya.

  • Manajemen peristiwa (AIOps) - Mendeteksi peristiwa, menilai potensi dampaknya, dan menentukan tindakan kontrol yang tepat. Mampu menyaring kebisingan, fokus pada peristiwa prioritas, memprediksi kelelahan sumber daya yang akan datang, secara otomatis menghasilkan peringatan dan insiden, dan mengidentifikasi kemungkinan penyebab dan tindakan remediasi akan membantu Anda meningkatkan deteksi insiden dan waktu respons. Membangun pola toko acara dan memanfaatkan machine learning (AIOps) untuk mengotomatisasi korelasi acara, deteksi anomali, dan penentuan kausalitas. Integrasikan dengan layanan cloud dan alat pihak ketiga, termasuk dengan sistem dan proses manajemen insiden Anda. Otomatiskan tanggapan terhadap peristiwa untuk mengurangi kesalahan yang disebabkan oleh proses manual dan memastikan respons yang cepat dan konsisten.

  • Insiden dan manajemen masalah — Cepat memulihkan operasi layanan dan meminimalkan dampak bisnis yang merugikan. Dengan adopsi cloud, proses untuk menanggapi masalah layanan dan masalah kondisi aplikasi dapat sangat otomatis, sehingga menghasilkan waktu operasi layanan yang lebih besar. Ketika Anda beralih ke model operasi yang lebih didistribusikan, merampingkan interaksi antara tim, alat, dan proses yang relevan akan membantu Anda mempercepat resolusi insiden kritis dan/atau kompleks. Tentukan jalur eskalasi di runbook Anda, termasuk apa yang memicu eskalasi, dan prosedur eskalasi.

    Praktikkan gameday respons insiden dan menggabungkan pelajaran yang dipelajari dalam runbook Anda. Mengidentifikasi pola insiden untuk menentukan masalah dan tindakan korektif. Manfaatkan chatbot dan alat kolaborasi untuk menghubungkan tim operasi, alat, dan alur kerja Anda. Memanfaatkan analisis pasca-insiden tanpa cela untuk mengidentifikasi faktor-faktor yang berkontribusi dari insiden dan mengembangkan rencana tindakan yang sesuai.

  • Manajemen perubahan dan rilis — Memperkenalkan dan memodifikasi beban kerja sambil meminimalkan risiko terhadap lingkungan produksi. Manajemen rilis tradisional adalah proses yang kompleks yang lambat untuk menyebarkan dan sulit untuk memutar kembali. Adopsi cloud memberikan kesempatan untuk memanfaatkan teknik CI/CD untuk mengelola rilis dan rollback dengan cepat. Buat proses perubahan yang memungkinkan alur kerja persetujuan otomatis yang sejajar dengan ketangkasan cloud. Gunakan sistem manajemen deployment untuk melacak dan menerapkan perubahan. Gunakan perubahan yang sering, kecil, dan reversibel untuk mengurangi ruang lingkup perubahan. Uji perubahan dan validasi hasil di semua tahap siklus hidup untuk meminimalkan risiko dan dampak deployment yang gagal. Otomatiskan rollback ke keadaan baik yang diketahui sebelumnya ketika hasil tidak tercapai untuk meminimalkan waktu pemulihan dan mengurangi kesalahan yang disebabkan oleh proses manual.

  • Manajemen kinerja dan kapasitas - Pantau kinerja beban kerja dan pastikan kapasitas memenuhi permintaan saat ini dan masa depan. Meskipun kapasitas cloud hampir tidak terbatas, kuota layanan, pencadangan kapasitas, dan kendala sumber daya membatasi kapasitas aktual beban kerja Anda. Kendala kapasitas seperti itu perlu dipahami dan dikelolasecara efektif. Identifikasi pemangku kepentingan utama dan setujui tujuan, ruang lingkup, tujuan, dan metrik. Mengumpulkan dan memproses data kinerja dan secara teratur meninjau dan melaporkan kinerja terhadap target. Secara berkala mengevaluasi teknologi baru untuk meningkatkan kinerja dan merekomendasikan perubahan pada tujuan dan metrik yang sesuai. Pantau pemanfaatan beban kerja Anda, buat garis dasar untuk perbandingan di masa mendatang, dan identifikasi ambang batas untuk memperluas kapasitas sesuai kebutuhan. Analisis permintaan dari waktu ke waktu untuk memastikan kapasitas sesuai tren musiman dan kondisi operasi yang fluktuasi.

  • Manajemen konfigurasi — Pertahankan catatan yang akurat dan lengkap dari semua beban kerja cloud, hubungan mereka, dan perubahan konfigurasi dari waktu ke waktu. Kecuali dikelola secara efektif, sifat dinamis dan virtual penyediaan sumber daya awan dapat menyebabkan drift konfigurasi. Tentukan dan terapkan skema penandaan yang melapisi atribut bisnis Anda dengan penggunaan cloud Anda, dan manfaatkan tag untuk mengatur sumber daya Anda sepanjang dimensi teknis, bisnis, dan keamanan. Tentukan tag wajib dan menegakkan kepatuhan melalui kebijakan. Manfaatkan infrastruktur sebagai kode (IAC) dan alat manajemen konfigurasi untuk penyediaan sumber daya dan manajemen siklus hidup. Tetapkan garis dasar konfigurasi dan pertahankan mereka melalui kontrol versi.

  • Manajemen patch - Secara sistematis mendistribusikan dan menerapkan pembaruan perangkat lunak. Pembaruan perangkat lunak mengatasi kerentanan keamanan yang muncul, memperbaiki bug, dan memperkenalkan fitur baru. Pendekatan sistematis untuk manajemen patch akan memastikan bahwa Anda mendapat manfaat dari pembaruan terbaru sambil meminimalkan risiko terhadap lingkungan produksi. Terapkan pembaruan penting selama jendela pemeliharaan yang ditentukan dan pembaruan keamanan penting sesegera mungkin. Beri tahu pengguna terlebih dahulu dengan rincian pembaruan yang akan datang dan biarkan mereka menunda tambalan saat kontrol mitigasi lainnya tersedia. Perbarui gambar mesin Anda dan uji tambalan sebelum diluncurkan ke produksi. Untuk memastikan ketersediaan berkelanjutan selama patching, pertimbangkan jendela pemeliharaan terpisah untuk setiap Availability Zone (AZ) dan lingkungan. Secara teratur meninjau kepatuhan patching dan memperingatkan tim yang tidak patuh untuk menerapkan pembaruan yang diperlukan.

  • Manajemen ketersediaan dan kelangsungan — Memastikan ketersediaan informasi, aplikasi, dan layanan bisnis yang penting. Membangun solusi pencadangan berbasis cloud memerlukan pertimbangan yang cermat terhadap investasi teknologi yang ada, tujuan pemulihan, dan sumber daya yang tersedia. Restorasi tepat waktu setelah bencana dan peristiwa keamanan akan membantu Anda menjaga ketersediaan sistem dan kelangsungan bisnis. Cadangkan data dan dokumentasi Anda sesuai dengan jadwal yang ditentukan.

    Kembangkan rencana pemulihan bencana sebagai bagian dari rencana keberlanjutan bisnis Anda. Identifikasi ancaman, risiko, dampak, dan biaya skenario bencana yang berbeda untuk setiap beban kerja dan tentukan Sasaran Waktu Pemulihan (RTO) dan Sasaran Titik Pemulihan (RPO) yang sesuai. Menerapkan strategi pemulihan bencana pilihan Anda dengan memanfaatkan arsitektur Multi-AZ atau Multi-wilayah. Pertimbangkan memanfaatkan rekayasa kekacauan untuk meningkatkan ketahanan dan kinerja dengan eksperimen terkontrol. Tinjau dan uji rencana Anda secara teratur dan sesuaikan pendekatan Anda berdasarkan pelajaran yang dipelajari.

  • Manajemen aplikasi - menyelidiki dan memperbaiki masalah aplikasi dalam satu panel kaca. Menggabungkan data aplikasi ke dalam konsol manajemen tunggal akan menyederhanakan pengawasan operasional dan mempercepat remediasi masalah aplikasi dengan mengurangi kebutuhan untuk beralih konteks antara alat manajemen yang berbeda.

    Integrasikan dengan sistem operasional dan manajemen lainnya, seperti manajemen portofolio aplikasi dan CMDB, otomatiskan penemuan komponen dan sumber daya aplikasi Anda, dan konsolidasikan data aplikasi ke dalam satu konsol manajemen. Sertakan komponen perangkat lunak dan sumber daya infrastruktur, dan gambarkan lingkungan yang berbeda, seperti pengembangan, pementasan, dan produksi. Untuk mengatasi masalah operasional lebih cepat dan konsisten, pertimbangkan untuk mengotomatisasi runbookAnda.