Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kuesioner orientasi beban kerja dan konsumsi alarm
Unduh kuesioner orientasi Beban Kerja
Unduh kuesioner konsumsi alarm
Kuesioner orientasi beban kerja - Pertanyaan umum
Pertanyaan umum | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Pertanyaan | Contoh Respons | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Nama Perusahaan | Amazon Inc. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Nama beban kerja ini (termasuk singkatan apa pun) | Operasi Ritel Amazon (ARO) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Pengguna akhir primer dan fungsi beban kerja ini. | Beban kerja ini adalah aplikasi e-commerce yang memungkinkan pengguna akhir untuk membeli berbagai item. Beban kerja ini adalah penghasil pendapatan utama untuk bisnis kami. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kepatuhan yang berlaku dan/atau persyaratan peraturan untuk beban kerja ini dan tindakan apa pun yang diperlukan dari AWS setelah sebuah insiden. | Beban kerja berkaitan dengan catatan kesehatan pasien yang harus dijaga keamanannya dan rahasia. |
Kuesioner orientasi beban kerja - Pertanyaan arsitektur
Pertanyaan arsitektur | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Pertanyaan | Contoh Respons | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sebuah daftar AWS tag sumber daya yang digunakan untuk menentukan sumber daya yang merupakan bagian dari beban kerja ini. AWS menggunakan tag ini untuk mengidentifikasi sumber daya beban kerja ini untuk mempercepat dukungan selama insiden. catatanTag peka terhadap huruf besar dan kecil. Jika Anda memberikan beberapa tag, semua sumber daya yang digunakan oleh beban kerja ini harus memiliki tag yang sama. |
appName: Optimax lingkungan: Produksi |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada. catatanBuat baris baru untuk setiap layanan. |
Rute 53: Rutekan lalu lintas internet keALB. Akun:123456789101 Wilayah: US- EAST -1, US- WEST -2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada. catatanBuat baris baru untuk setiap layanan. |
ALB: Rutekan lalu lintas masuk ke kelompok target ECS kontainer. Akun: 123456789101 Wilayah: N/A | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada. catatanBuat baris baru untuk setiap layanan. |
ECS: Infrastruktur komputasi untuk armada logika bisnis utama. Bertanggung jawab untuk menangani permintaan pengguna yang masuk dan membuat kueri ke lapisan persistensi. Akun: 123456789101 Wilayah: US- EAST -1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada. catatanBuat baris baru untuk setiap layanan. |
RDSCluster Amazon Aurora menyimpan data pengguna yang diakses oleh lapisan logika ECS bisnis. Akun: 123456789101 Wilayah: US- EAST -1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sebuah daftar AWS Layanan yang digunakan oleh beban kerja ini dan AWS Akun dan Wilayah tempat mereka berada. catatanBuat baris baru untuk setiap layanan. |
S3: Menyimpan aset statis situs web. Akun: 123456789101 Wilayah: N/A | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Detail komponen hulir/hilir yang tidak di-onboard yang dapat memengaruhi beban kerja ini jika mengalami pemadaman. | Layanan Mikro Otentikasi: Akan mencegah pengguna memuat catatan kesehatan mereka karena tidak akan diautentikasi. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Apakah ada on-premise atau non-AWS komponen untuk beban kerja ini? Jika demikian, apa saja dan fungsi apa yang dilakukan? | Semua lalu lintas berbasis internet masuk/keluar AWS dirutekan melalui layanan proxy on-prem kami. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Berikan rincian rencana pemulihan kegagalan/bencana manual atau otomatis di Availability Zone dan tingkat regional. | Siaga hangat. Failover otomatis ke US- WEST -2 selama penurunan berkelanjutan dalam tingkat keberhasilan. |
Kuesioner orientasi beban kerja - AWS Pertanyaan Acara Layanan
AWS Pertanyaan Acara Layanan | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Pertanyaan | Contoh Respons | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Berikan detail kontak (nama/email/telepon) tim manajemen insiden besar/krisis TI internal perusahaan Anda. | Tim Manajemen Insiden Utama mim@example.com +61 2 3456 7890 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Berikan rincian jembatan manajemen insiden/krisis statis yang didirikan oleh perusahaan Anda. Jika Anda menggunakan jembatan non-statis, maka tentukan aplikasi pilihan Anda dan AWS akan meminta rincian ini selama insiden. catatanJika salah satu tidak disediakan, maka AWS akan menjangkau selama insiden dan menyediakan jembatan Chime bagi Anda untuk bergabung. |
Amazon Chime https://chime.aws/1234567890 |
Kuesioner Pencerapan Alarm
Pertanyaan Runbook | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Pertanyaan | Contoh Respons | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AWS akan melibatkan kontak beban kerja melalui AWS Support Kasus. Siapa kontak utama ketika alarm memicu beban kerja ini? Tentukan aplikasi konferensi pilihan Anda dan AWS akan meminta rincian ini selama insiden. catatanJika aplikasi konferensi pilihan tidak disediakan, maka AWS akan menjangkau selama insiden dan menyediakan jembatan Chime bagi Anda untuk bergabung. |
Tim Aplikasi app@example.com +61 2 3456 7890 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Jika kontak utama tidak tersedia selama insiden, harap berikan kontak eskalasi dan garis waktu dalam urutan komunikasi pilihan. |
1. Setelah 10 menit, jika tidak ada tanggapan dari Kontak Utama, libatkan: John Smith - Pengawas Aplikasi john.smith@example.com +61 2 3456 7890 2. Setelah 10 menit, jika tidak ada tanggapan dari John Smith, hubungi: Jane Smith - Manajer Operasi jane.smith@example.com +61 2 3456 7890 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AWS mengkomunikasikan pembaruan melalui kasus dukungan secara berkala selama insiden. Apakah ada kontak tambahan yang harus menerima pembaruan ini? |
john.smith@example.com, jane.smith@example.com |
Matriks alarm
Matriks Alarm
Berikan informasi berikut untuk mengidentifikasi rangkaian alarm yang akan melibatkan Deteksi dan Respons AWS Insiden untuk membuat insiden atas nama beban kerja Anda. Setelah teknisi dari Deteksi dan Respons AWS Insiden meninjau alarm Anda, langkah orientasi tambahan akan dikirimkan.
AWSDeteksi Insiden dan Respon Kriteria Alarm Kritis:
AWSDeteksi Insiden dan Alarm Respons hanya boleh memasukkan status “Alarm” pada dampak bisnis yang signifikan terhadap beban kerja yang dipantau (hilangnya pendapatan/pengalaman pelanggan yang menurun) yang memerlukan perhatian operator segera.
AWSDeteksi Insiden dan Alarm Respons juga harus melibatkan resolver Anda untuk beban kerja pada saat yang sama atau sebelum keterlibatan. AWS Manajer Insiden berkolaborasi dengan resolver Anda dalam proses mitigasi, dan tidak berfungsi sebagai responden lini pertama yang kemudian meningkat kepada Anda.
AWSAmbang batas alarm Deteksi Insiden dan Respons harus diatur ke ambang batas dan durasi yang sesuai sehingga setiap kali alarm menyala, penyelidikan harus dilakukan. Jika alarm bergerak di antara status “Alarm” dan “OK”, dampak yang cukup akan terjadi untuk menjamin respons dan perhatian operator.
AWSKebijakan Deteksi dan Respon Insiden untuk Pelanggaran Kriteria:
Kriteria ini hanya dapat dievaluasi case-by-case berdasarkan peristiwa yang terjadi. Tim Manajemen Insiden bekerja dengan manajer akun teknis Anda (TAMs) untuk menyesuaikan alarm dan dalam kasus yang jarang terjadi menonaktifkan pemantauan jika diduga alarm pelanggan tidak mematuhi kriteria ini dan melibatkan tim Manajemen Insiden secara tidak perlu dengan tarif reguler.
penting
Berikan alamat email distribusi grup saat memberikan alamat kontak, sehingga Anda dapat mengontrol penambahan dan penghapusan penerima tanpa pembaruan runbook.
Berikan nomor telepon kontak untuk tim rekayasa keandalan situs (SRE) Anda jika Anda ingin tim Deteksi dan Respons AWS Insiden menelepon mereka setelah mengirim email keterlibatan awal.
Tabel Matriks Alarm | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Nama metrik/ARN/Ambang | Deskripsi | Catatan | Tindakan yang diminta | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Volume beban kerja/
CallCount < 100000 untuk 5 titik data dalam 5 menit, perlakukan data yang hilang sebagai hilang |
Metrik ini mewakili jumlah permintaan masuk yang masuk ke beban kerja, diukur pada tingkat Application Load Balancer. Alarm ini penting karena penurunan signifikan dalam permintaan masuk dapat mengindikasikan masalah dengan konektivitas jaringan hulu, atau masalah dengan DNS implementasi kami yang mengakibatkan pengguna tidak dapat mengakses beban kerja. |
Alarm telah memasuki status “Alarm” 10 kali dalam seminggu terakhir. Alarm ini berisiko positif palsu. Tinjauan ambang batas direncanakan. Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu. Resolver: Insinyur Keandalan Situs |
Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke Buat kasus AWS Dukungan Premimum untuk layanan kamiELB, dan Route 53. Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Latensi Permintaan Beban Kerja/
p90 Latensi > 100 ms untuk 5 titik data dalam 5 menit, perlakukan data yang hilang sebagai hilang |
Metrik ini mewakili latensi p90 untuk HTTP permintaan yang harus dipenuhi oleh beban kerja. Alarm ini mewakili latensi (ukuran penting pengalaman pelanggan untuk situs web). |
Alarm telah memasuki status “Alarm” 0 kali dalam seminggu terakhir. Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu. Resolver: Insinyur Keandalan Situs |
Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke Buat case AWS Support Premimum untuk layanan dan RDS layanan kamiECW. Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ketersediaan Permintaan Beban Kerja/
Ketersediaan < 95% untuk 5 titik data dalam 5 menit, perlakukan data yang hilang sebagai hilang. |
Metrik ini mewakili ketersediaan HTTP permintaan yang harus dipenuhi oleh beban kerja. (# dari HTTP 200/# Permintaan) per periode. Alarm ini mewakili ketersediaan beban kerja. |
Alarm telah memasuki status “Alarm” 0 kali dalam seminggu terakhir. Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu. Resolver: Insinyur Keandalan Situs |
Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke Buat kasus AWS Dukungan Premimum untuk layanan kamiELB, dan Route 53. Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Contoh Alarm Relik Baru | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Tes Integrasi Ujung ke Akhir/
Tingkat kegagalan 3% untuk metrik 1 menit selama durasi 3 menit, perlakukan data yang hilang sebagai hilang Pengidentifikasi Beban Kerja: Alur Kerja Uji Ujung ke Akhir, AWS Wilayah: AS- EAST -1, ID AWS Akun: 012345678910 |
Metrik ini menguji apakah permintaan dapat melintasi setiap lapisan beban kerja. Jika tes ini gagal, ini merupakan kegagalan kritis untuk memproses transaksi bisnis. Alarm ini mewakili kemampuan untuk memproses transaksi bisnis untuk beban kerja. |
Alarm telah memasuki status “Alarm” 0 kali dalam seminggu terakhir. Masalah? Tidak atau Ya (jika Tidak, biarkan kosong): Alarm ini sering membalik selama pelaksanaan pekerjaan batch tertentu. Resolver: Insinyur Keandalan Situs |
Libatkan tim Rekayasa Keandalan Situs dengan mengirim email ke Buat kasus AWS Dukungan Premimum untuk layanan DynamoDB dan DynamoDB kamiECS. Jika IMMEDIATE tindakan diperlukan: Periksa Memori/ruang disk EC2 gratis dan menginformasikan |