Kuesioner orientasi beban kerja dan konsumsi alarm - AWSPanduan Pengguna Deteksi Insiden dan Respons

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Kuesioner orientasi beban kerja dan konsumsi alarm

Unduh kuesioner orientasi Beban Kerja.

Unduh kuesioner konsumsi alarm.

Kuesioner orientasi beban kerja - Pertanyaan umum

Pertanyaan umum
Pertanyaan Contoh Respons
Nama Perusahaan

Amazon Inc.

Nama beban kerja ini (termasuk singkatan apa pun)

Operasi Ritel Amazon (ARO)

Pengguna akhir primer dan fungsi beban kerja ini.

Beban kerja ini adalah aplikasi e-commerce yang memungkinkan pengguna akhir untuk membeli berbagai item. Beban kerja ini adalah penghasil pendapatan utama untuk bisnis kami.

Kepatuhan yang berlaku dan/atau persyaratan peraturan untuk beban kerja ini dan tindakan apa pun yang diperlukan dari AWS setelah sebuah insiden.

Beban kerja berkaitan dengan catatan kesehatan pasien yang harus dijaga keamanannya dan rahasia.

Kuesioner orientasi beban kerja - Pertanyaan arsitektur

Pertanyaan arsitektur
Pertanyaan Contoh Respons

Sebuah daftar AWS tag sumber daya yang digunakan untuk menentukan sumber daya yang merupakan bagian dari beban kerja ini. AWS menggunakan tag ini untuk mengidentifikasi sumber daya beban kerja ini untuk mempercepat dukungan selama insiden.

catatan

Tag peka terhadap huruf besar dan kecil. Jika Anda memberikan beberapa tag, semua sumber daya yang digunakan oleh beban kerja ini harus memiliki tag yang sama.

appName: Optimax

lingkungan: Produksi

Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada.

catatan

Buat baris baru untuk setiap layanan.

Rute 53: Rutekan lalu lintas internet keALB.

Akun:123456789101

Wilayah: US- EAST -1, US- WEST -2

Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada.

catatan

Buat baris baru untuk setiap layanan.

ALB: Rutekan lalu lintas masuk ke kelompok target ECS kontainer.

Akun: 123456789101

Wilayah: N/A

Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada.

catatan

Buat baris baru untuk setiap layanan.

ECS: Infrastruktur komputasi untuk armada logika bisnis utama. Bertanggung jawab untuk menangani permintaan pengguna yang masuk dan membuat kueri ke lapisan persistensi.

Akun: 123456789101

Wilayah: US- EAST -1

Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada.

catatan

Buat baris baru untuk setiap layanan.

RDSCluster Amazon Aurora menyimpan data pengguna yang diakses oleh lapisan logika ECS bisnis.

Akun: 123456789101

Wilayah: US- EAST -1

Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada.

catatan

Buat baris baru untuk setiap layanan.

S3: Menyimpan aset statis situs web.

Akun: 123456789101

Wilayah: N/A

Detail komponen hulir/hilir yang tidak di-onboard yang dapat memengaruhi beban kerja ini jika mengalami pemadaman. Layanan Mikro Otentikasi: Akan mencegah pengguna memuat catatan kesehatan mereka karena tidak akan diautentikasi.
Apakah ada on-premise atau non-AWS komponen untuk beban kerja ini? Jika demikian, apa saja dan fungsi apa yang dilakukan? Semua lalu lintas berbasis internet masuk/keluar AWS dirutekan melalui layanan proxy on-prem kami.
Berikan rincian rencana pemulihan kegagalan/bencana manual atau otomatis di Availability Zone dan tingkat regional. Siaga hangat. Failover otomatis ke US- WEST -2 selama penurunan berkelanjutan dalam tingkat keberhasilan.

Kuesioner orientasi beban kerja - AWS Pertanyaan Acara Layanan

AWS Pertanyaan Acara Layanan
Pertanyaan Contoh Respons
Berikan detail kontak (nama/email/telepon) tim manajemen insiden besar/krisis TI internal perusahaan Anda.

Tim Manajemen Insiden Utama

mim@example.com

+61 2 3456 7890

Berikan rincian jembatan manajemen insiden/krisis statis yang didirikan oleh perusahaan Anda. Jika Anda menggunakan jembatan non-statis, maka tentukan aplikasi pilihan Anda dan AWS akan meminta rincian ini selama insiden.

catatan

Jika salah satu tidak disediakan, maka AWS akan menjangkau selama insiden dan menyediakan jembatan Chime bagi Anda untuk bergabung.

Amazon Chime

https://chime.aws/1234567890

Kuesioner Pencerapan Alarm

Pertanyaan Runbook
Pertanyaan Contoh Respons

AWS akan melibatkan kontak beban kerja melalui AWS Support Kasus. Siapa kontak utama ketika alarm memicu beban kerja ini?

Tentukan aplikasi konferensi pilihan Anda dan AWS akan meminta rincian ini selama insiden.

catatan

Jika aplikasi konferensi pilihan tidak disediakan, maka AWS akan menjangkau selama insiden dan menyediakan jembatan Chime bagi Anda untuk bergabung.

Tim Aplikasi

app@example.com

+61 2 3456 7890

Jika kontak utama tidak tersedia selama insiden, harap berikan kontak eskalasi dan garis waktu dalam urutan komunikasi pilihan.

1. Setelah 10 menit, jika tidak ada tanggapan dari Kontak Utama, libatkan:

John Smith - Pengawas Aplikasi

john.smith@example.com

+61 2 3456 7890

2. Setelah 10 menit, jika tidak ada tanggapan dari John Smith, hubungi:

Jane Smith - Manajer Operasi

jane.smith@example.com

+61 2 3456 7890

AWS mengkomunikasikan pembaruan melalui kasus dukungan secara berkala selama insiden. Apakah ada kontak tambahan yang harus menerima pembaruan ini?

john.smith@example.com, jane.smith@example.com

Matriks alarm

Matriks Alarm

Berikan informasi berikut untuk mengidentifikasi rangkaian alarm yang akan melibatkan Deteksi dan Respons AWS Insiden untuk membuat insiden atas nama beban kerja Anda. Setelah teknisi dari Deteksi dan Respons AWS Insiden meninjau alarm Anda, langkah orientasi tambahan akan dikirimkan.

AWSDeteksi Insiden dan Respon Kriteria Alarm Kritis:

  • AWSDeteksi Insiden dan Alarm Respons hanya boleh memasukkan status “Alarm” pada dampak bisnis yang signifikan terhadap beban kerja yang dipantau (hilangnya pendapatan/pengalaman pelanggan yang menurun) yang memerlukan perhatian operator segera.

  • AWSDeteksi Insiden dan Alarm Respons juga harus melibatkan resolver Anda untuk beban kerja pada saat yang sama atau sebelum keterlibatan. AWS Manajer Insiden berkolaborasi dengan resolver Anda dalam proses mitigasi, dan tidak berfungsi sebagai responden lini pertama yang kemudian meningkat kepada Anda.

  • AWSAmbang batas alarm Deteksi Insiden dan Respons harus diatur ke ambang batas dan durasi yang sesuai sehingga setiap kali alarm menyala, penyelidikan harus dilakukan. Jika alarm bergerak di antara status “Alarm” dan “OK”, dampak yang cukup akan terjadi untuk menjamin respons dan perhatian operator.

AWSKebijakan Deteksi dan Respon Insiden untuk Pelanggaran Kriteria:

Kriteria ini hanya dapat dievaluasi case-by-case berdasarkan peristiwa yang terjadi. Tim Manajemen Insiden bekerja dengan manajer akun teknis Anda (TAMs) untuk menyesuaikan alarm dan dalam kasus yang jarang terjadi menonaktifkan pemantauan jika diduga alarm pelanggan tidak mematuhi kriteria ini dan melibatkan tim Manajemen Insiden secara tidak perlu dengan tarif reguler.

penting

Berikan alamat email distribusi grup saat memberikan alamat kontak, sehingga Anda dapat mengontrol penambahan dan penghapusan penerima tanpa pembaruan runbook.

Berikan nomor telepon kontak untuk tim rekayasa keandalan situs (SRE) Anda jika Anda ingin tim Deteksi dan Respons AWS Insiden menelepon mereka setelah mengirim email keterlibatan awal.

Tabel Matriks Alarm
Nama metrik/ARN/Ambang Deskripsi Catatan Tindakan yang diminta

Volume beban kerja/

CW Alarm ARN /

CallCount < 100000 untuk 5 titik data dalam 5 menit, perlakukan data yang hilang sebagai hilang

Metrik ini mewakili jumlah permintaan masuk yang masuk ke beban kerja, diukur pada tingkat Application Load Balancer.

Alarm ini penting karena penurunan signifikan dalam permintaan masuk dapat mengindikasikan masalah dengan konektivitas jaringan hulu, atau masalah dengan DNS implementasi kami yang mengakibatkan pengguna tidak dapat mengakses beban kerja.

Alarm telah memasuki status “Alarm” 10 kali dalam seminggu terakhir. Alarm ini berisiko positif palsu. Tinjauan ambang batas direncanakan.

Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu.

Resolver: Insinyur Keandalan Situs

Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke SRE@xyz.com

Buat kasus AWS Dukungan Premimum untuk layanan kamiELB, dan Route 53.

Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan XYZ Tim melalui email untuk memulai ulang instance, atau menjalankan log flush. (jika tindakan segera tidak diperlukan, biarkan kosong)

Latensi Permintaan Beban Kerja/

CW Alarm ARN /

p90 Latensi > 100 ms untuk 5 titik data dalam 5 menit, perlakukan data yang hilang sebagai hilang

Metrik ini mewakili latensi p90 untuk HTTP permintaan yang harus dipenuhi oleh beban kerja.

Alarm ini mewakili latensi (ukuran penting pengalaman pelanggan untuk situs web).

Alarm telah memasuki status “Alarm” 0 kali dalam seminggu terakhir.

Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu.

Resolver: Insinyur Keandalan Situs

Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke SRE@xyz.com

Buat case AWS Support Premimum untuk layanan dan RDS layanan kamiECW.

Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan XYZ Tim melalui email untuk memulai ulang instance, atau menjalankan log flush. (jika tindakan segera tidak diperlukan, biarkan kosong)

Ketersediaan Permintaan Beban Kerja/

CW Alarm ARN /

Ketersediaan < 95% untuk 5 titik data dalam 5 menit, perlakukan data yang hilang sebagai hilang.

Metrik ini mewakili ketersediaan HTTP permintaan yang harus dipenuhi oleh beban kerja. (# dari HTTP 200/# Permintaan) per periode.

Alarm ini mewakili ketersediaan beban kerja.

Alarm telah memasuki status “Alarm” 0 kali dalam seminggu terakhir.

Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu.

Resolver: Insinyur Keandalan Situs

Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke SRE@xyz.com

Buat kasus AWS Dukungan Premimum untuk layanan kamiELB, dan Route 53.

Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan XYZ Tim melalui email untuk memulai ulang instance, atau menjalankan log flush. (jika tindakan segera tidak diperlukan, biarkan kosong)

 

Contoh Alarm Relik Baru

Tes Integrasi Ujung ke Akhir/

CW Alarm ARN /

Tingkat kegagalan 3% untuk metrik 1 menit selama durasi 3 menit, perlakukan data yang hilang sebagai hilang

Pengidentifikasi Beban Kerja: Alur Kerja Uji Ujung ke Akhir, AWS Wilayah: AS- EAST -1, ID AWS Akun: 012345678910

Metrik ini menguji apakah permintaan dapat melintasi setiap lapisan beban kerja. Jika tes ini gagal, ini merupakan kegagalan kritis untuk memproses transaksi bisnis.

Alarm ini mewakili kemampuan untuk memproses transaksi bisnis untuk beban kerja.

Alarm telah memasuki status “Alarm” 0 kali dalam seminggu terakhir.

Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu.

Resolver: Insinyur Keandalan Situs

Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke SRE@xyz.com

Buat kasus AWS Dukungan Premimum untuk layanan DynamoDB dan DynamoDB kamiECS.

Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan XYZ Tim melalui email untuk memulai ulang instance, atau menjalankan log flush. (jika tindakan segera tidak diperlukan, biarkan kosong)