CloudWatch Alarm yang disarankan untuk Layanan Amazon OpenSearch - OpenSearch Layanan Amazon

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

CloudWatch Alarm yang disarankan untuk Layanan Amazon OpenSearch

CloudWatch alarm melakukan tindakan ketika CloudWatch metrik melebihi nilai yang ditentukan untuk beberapa waktu. Misalnya, Anda mungkin AWS ingin mengirim email jika status kesehatan klaster Anda lebih dari satu menit. red Bagian ini mencakup beberapa alarm yang direkomendasikan untuk OpenSearch Layanan Amazon dan cara menanggapinya.

Anda dapat secara otomatis menyebarkan alarm ini menggunakan. AWS CloudFormationUntuk tumpukan sampel, lihat GitHubrepositori terkait.

catatan

Jika Anda menerapkan CloudFormation tumpukan, KMSKeyInaccessible alarm KMSKeyError dan akan ada dalam Insufficient Data status karena metrik ini hanya muncul jika domain mengalami masalah dengan kunci enkripsi.

Untuk informasi selengkapnya tentang mengonfigurasi alarm, lihat Membuat CloudWatchAlarm Amazon di Panduan Pengguna Amazon CloudWatch .

Alarm Masalah
Maksimum ClusterStatus.red adalah > = 1 untuk 1 menit, 1 kali berturut-turut Setidaknya satu serpihan utama dan replika yang tidak dialokasikan untuk simpul. Lihat Status klaster merah.
ClusterStatus.yellowmaksimum adalah> = 1 selama 1 menit, 5 kali berturut-turut Setidaknya satu serpihan replika tidak dialokasikan ke simpul. Lihat Status klaster kuning.
Minimum FreeStorageSpaceadalah <= 20480 selama 1 menit, 1 kali berturut-turut Sebuah simpul di klaster Anda turun ke 20 GiB ruang penyimpanan gratis. Lihat Kurangnya ruang penyimpanan yang tersedia. Nilai ini berdasarkan MiB, jadi bukan 20480, sebaiknya atur ke 25% dari ruang penyimpanan untuk setiap simpul.
ClusterIndexWritesBlocked adalah > = 1 untuk 5 menit, 1 kali berturut-turut Klaster Anda memblokir permintaan tulis. Lihat ClusterBlockException.
Minimum Nodes adalah < x selama 1 hari, 1 kali berturut-turut x adalah jumlah simpul dalam klaster Anda. Alarm ini menunjukkan bahwa setidaknya satu simpul di klaster Anda telah tidak terjangkau untuk satu hari. Lihat Simpul klaster yang gagal.
Maksimum AutomatedSnapshotFailure adalah > = 1 untuk 1 menit, 1 kali berturut-turut Sebuah snapshot otomatis gagal. Kegagalan ini sering merupakan hasil dari status kesehatan klaster merah. Lihat Status klaster merah.

Untuk ringkasan semua snapshot otomatis dan beberapa informasi tentang kegagalan, cobalah salah satu permintaan berikut:

GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all
Maksimum CPUUtilization atau WarmCPUUtilization adalah >= 80% untuk 15 menit, 3 kali berturut-turut Pemanfaatan CPU 100% kadang-kadang dapat terjadi, tetapi penggunaan tinggi yang berkelanjutan bermasalah. Pertimbangkan untuk menggunakan jenis instans yang lebih besar atau menambahkan instans.
JVMMemoryPressuremaksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan secara vertikal. OpenSearch Layanan menggunakan setengah dari RAM instance untuk heap Java, hingga ukuran heap 32 GiB. Anda dapat menskalakan instans secara vertikal hingga 64 GiB RAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instans.
OldGenJVMMemoryPressuremaksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut
Maksimum MasterCPUUtilization adalah > >= 50% untuk 15 menit, 3 kali berturut-turut Pertimbangkan untuk menggunakan tipe instans yang lebih besar untuk simpul utama khusus. Karena peran mereka dalam stabilitas klaster dan deployment biru/hijau, simpul utama khusus harus memiliki penggunaan CPU yang lebih rendah dari simpul data.
MasterJVMMemoryPressuremaksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut
MasterOldGenJVMMemoryPressuremaksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut
KMSKeyError adalah > = 1 untuk 1 menit, 1 kali berturut-turut Kunci AWS KMS enkripsi yang digunakan untuk mengenkripsi data saat istirahat di domain Anda dinonaktifkan. Aktifkan kembali untuk mengembalikan operasi normal. Untuk informasi selengkapnya, lihat Enkripsi data saat istirahat untuk OpenSearch Layanan Amazon.
KMSKeyInaccessible adalah > = 1 untuk 1 menit, 1 kali berturut-turut Kunci AWS KMS enkripsi yang digunakan untuk mengenkripsi data saat istirahat di domain Anda telah dihapus atau telah mencabut hibahnya ke Layanan. OpenSearch Anda tidak dapat memulihkan domain yang berada dalam keadaan ini. Namun, jika Anda memiliki snapshot manual, Anda dapat menggunakannya untuk bermigrasi ke domain baru. Untuk mempelajari selengkapnya, lihat Enkripsi data saat istirahat untuk OpenSearch Layanan Amazon.
shards.activeadalah> = 30000 selama 1 menit, 1 waktu berturut-turut

Jumlah total pecahan primer dan replika aktif lebih dari 30.000. Anda mungkin memutar indeks Anda terlalu sering. Pertimbangkan untuk menggunakan ISM untuk menghapus indeks setelah mencapai usia tertentu.

5xxalarm >= 10% dari OpenSearchRequests Satu atau beberapa node data mungkin kelebihan beban, atau permintaan gagal diselesaikan dalam periode batas waktu idle. Pertimbangkan untuk beralih ke jenis instance yang lebih besar atau menambahkan lebih banyak node ke cluster. Konfirmasikan bahwa Anda mengikuti praktik terbaik untuk arsitektur shard dan cluster.
MasterReachableFromNodemaksimum < 1 selama 5 menit, 1 kali berturut-turut

Alarm ini menunjukkan bahwa node master berhenti atau tidak dapat dijangkau. Kegagalan ini biasanya merupakan hasil dari masalah konektivitas jaringan atau masalah AWS ketergantungan.

ThreadpoolWriteQueueRata-rata adalah >= 100 selama 1 menit, 1 waktu berturut-turut Cluster mengalami konkurensi pengindeksan tinggi. Meninjau dan mengontrol permintaan pengindeksan, atau meningkatkan sumber daya cluster.
ThreadpoolSearchQueueRata-rata adalah> = 500 selama 1 menit, 1 waktu berturut-turut Cluster mengalami konkurensi pencarian yang tinggi. Pertimbangkan untuk menskalakan klaster Anda. Anda juga dapat meningkatkan ukuran antrian pencarian, tetapi meningkatkannya secara berlebihan dapat menyebabkan kesalahan memori.
ThreadpoolSearchQueuemaksimum adalah> = 5000 selama 1 menit, 1 kali berturut-turut
Kenaikan ThreadpoolSearchRejected SUM adalah >=1 {ekspresi matematika DIFF ()} selama 1 menit, 1 waktu berturut-turut Alarm ini memberi tahu Anda tentang masalah domain yang mungkin memengaruhi kinerja dan stabilitas.
Kenaikan ThreadpoolWriteRejected SUM adalah >=1 {ekspresi matematika DIFF ()} selama 1 menit, 1 waktu berturut-turut
catatan

Jika Anda hanya ingin melihat metrik, lihatMemantau metrik OpenSearch klaster dengan Amazon CloudWatch.

Alarm lain yang mungkin Anda pertimbangkan

Pertimbangkan untuk mengonfigurasi alarm berikut tergantung pada fitur OpenSearch Layanan yang sering Anda gunakan.

Alarm Isu
WarmFreeStorageSpaceminimum <= 10240 selama 1 menit, 1 kali berturut-turut Sebuah UltraWarm node di cluster Anda turun ke 10 GiB ruang penyimpanan gratis. Lihat Kurangnya ruang penyimpanan yang tersedia. Nilai ini ada di MiB, jadi daripada 10240, kami sarankan untuk mengaturnya ke 10% dari ruang penyimpanan untuk setiap node. UltraWarm
HotToWarmMigrationQueueSizeadalah> = 20 selama 1 menit, 3 kali berturut-turut

Sejumlah besar indeks secara bersamaan bergerak dari panas ke UltraWarm penyimpanan. Pertimbangkan untuk menskalakan klaster Anda.

HotToWarmMigrationSuccessLatencyadalah> = 1 hari, 1 kali berturut-turut

Konfigurasikan alarm ini sehingga Anda diberi tahu jika latensi HotToWarmMigrationSuccessCount x lebih besar dari 24 jam jika Anda mencoba memutar indeks harian.

WarmJVMMemoryPressuremaksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan secara vertikal. OpenSearch Layanan menggunakan setengah dari RAM instance untuk heap Java, hingga ukuran heap 32 GiB. Anda dapat menskalakan instans secara vertikal hingga 64 GiB RAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instans.
WarmOldGenJVMMemoryPressuremaksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut
WarmToColdMigrationQueueSizeadalah> = 20 selama 1 menit, 3 kali berturut-turut

Sejumlah besar indeks secara bersamaan berpindah dari UltraWarm ke cold storage. Pertimbangkan untuk menskalakan klaster Anda.

HotToWarmMigrationFailureCount adalah > = 1 untuk 1 menit, 1 kali berturut-turut

Migrasi mungkin gagal selama snapshot, relokasi pecahan, atau penggabungan paksa. Kegagalan selama snapshot atau relokasi serpihan biasanya karena kegagalan simpul atau masalah konektivitas S3. Kurangnya ruang disk biasanya menjadi penyebab kegagalan penggabungan paksa.

WarmToColdMigrationFailureCount adalah > = 1 untuk 1 menit, 1 kali berturut-turut Migrasi biasanya gagal ketika upaya untuk memigrasikan metadata indeks ke penyimpanan dingin gagal. Kegagalan juga dapat terjadi ketika status cluster indeks hangat sedang dihapus.
WarmToColdMigrationLatencyadalah> = 1 hari, 1 kali berturut-turut

Konfigurasikan alarm ini sehingga Anda diberi tahu jika latensi WarmToColdMigrationSuccessCount x lebih besar dari 24 jam jika Anda mencoba memutar indeks harian.

AlertingDegraded adalah > = 1 untuk 1 menit, 1 kali berturut-turut

Entah indeks peringatan berwarna merah, atau satu atau lebih node tidak sesuai jadwal.

ADPluginUnhealthy adalah > = 1 untuk 1 menit, 1 kali berturut-turut

Plugin deteksi anomali tidak berfungsi dengan baik, baik karena tingkat kegagalan yang tinggi atau karena salah satu indeks yang digunakan berwarna merah.

AsynchronousSearchFailureRate adalah > = 1 untuk 1 menit, 1 kali berturut-turut

Setidaknya satu pencarian asinkron gagal di menit terakhir, yang kemungkinan berarti node koordinator gagal. Siklus hidup permintaan pencarian asinkron dikelola hanya pada node koordinator, jadi jika koordinator turun, permintaan gagal.

AsynchronousSearchStoreHealth adalah > = 1 untuk 1 menit, 1 kali berturut-turut

Kesehatan penyimpanan respons pencarian asinkron dalam indeks bertahan berwarna merah. Anda mungkin menyimpan respons asinkron besar, yang dapat mengacaukan klaster. Cobalah untuk membatasi respons pencarian asinkron Anda hingga 10 MB atau kurang.

SQLUnhealthyadalah> = 1 selama 1 menit, 3 kali berturut-turut

Plugin SQL mengembalikan kode respons 5 xx atau meneruskan kueri DSL yang tidak valid ke. OpenSearch Memecahkan masalah permintaan yang klien Anda buat untuk plugin.

LTRStatus.red adalah > = 1 untuk 1 menit, 1 kali berturut-turut

Setidaknya salah satu indeks yang diperlukan untuk menjalankan plugin Learning to Rank memiliki pecahan primer yang hilang dan tidak berfungsi.