Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
CloudWatch Alarm yang disarankan untuk Layanan Amazon OpenSearch
CloudWatch alarm melakukan tindakan ketika CloudWatch metrik melebihi nilai yang ditentukan untuk beberapa waktu. Misalnya, Anda mungkin AWS ingin mengirim email jika status kesehatan klaster Anda lebih dari satu menit. red
Bagian ini mencakup beberapa alarm yang direkomendasikan untuk OpenSearch Layanan Amazon dan cara menanggapinya.
Anda dapat secara otomatis menyebarkan alarm ini menggunakan. AWS CloudFormation Untuk tumpukan sampel, lihat GitHubrepositori
catatan
Jika Anda menerapkan CloudFormation tumpukan, KMSKeyInaccessible
alarm KMSKeyError
dan akan ada dalam Insufficient
Data
status karena metrik ini hanya muncul jika domain mengalami masalah dengan kunci enkripsi.
Untuk informasi selengkapnya tentang mengonfigurasi alarm, lihat Membuat CloudWatchAlarm Amazon di Panduan Pengguna Amazon CloudWatch .
Alarm | Masalah |
---|---|
Maksimum ClusterStatus.red adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Setidaknya satu serpihan utama dan replika yang tidak dialokasikan untuk simpul. Lihat Status klaster merah. |
ClusterStatus.yellow maksimum adalah> = 1 selama 1 menit, 5 kali berturut-turut |
Setidaknya satu serpihan replika tidak dialokasikan ke simpul. Lihat Status klaster kuning. |
Minimum FreeStorageSpace adalah <= 20480 selama 1 menit, 1 kali berturut-turut |
Sebuah simpul di klaster Anda turun ke 20 GiB ruang penyimpanan gratis. Lihat Kurangnya ruang penyimpanan yang tersedia. Nilai ini berdasarkan MiB, jadi bukan 20480, sebaiknya atur ke 25% dari ruang penyimpanan untuk setiap simpul. |
ClusterIndexWritesBlocked adalah > = 1 untuk 5 menit, 1 kali berturut-turut |
Klaster Anda memblokir permintaan tulis. Lihat ClusterBlockException. |
Minimum Nodes adalah < x selama 1 hari, 1 kali berturut-turut |
x adalah jumlah simpul dalam klaster Anda. Alarm ini menunjukkan bahwa setidaknya satu simpul di klaster Anda telah tidak terjangkau untuk satu hari. Lihat Simpul klaster yang gagal. |
Maksimum AutomatedSnapshotFailure adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Sebuah snapshot otomatis gagal. Kegagalan ini sering merupakan hasil dari status kesehatan klaster merah. Lihat Status klaster merah. Untuk ringkasan semua snapshot otomatis dan beberapa informasi tentang kegagalan, cobalah salah satu permintaan berikut:
|
Maksimum CPUUtilization atau WarmCPUUtilization adalah >= 80% untuk 15 menit, 3 kali berturut-turut |
CPUPemanfaatan 100% dapat terjadi kadang-kadang, tetapi penggunaan tinggi yang berkelanjutan bermasalah. Pertimbangkan untuk menggunakan jenis instans yang lebih besar atau menambahkan instans. |
JVMMemoryPressure maksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut |
Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan secara vertikal. OpenSearch Layanan menggunakan setengah dari instance RAM untuk heap Java, hingga ukuran heap 32 GiB. Anda dapat menskalakan instance secara vertikal hingga 64 GiBRAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instance. |
OldGenJVMMemoryPressure maksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut |
|
Maksimum ManagerCPUUtilization adalah > >= 50% untuk 15 menit, 3 kali berturut-turut |
Pertimbangkan untuk menggunakan tipe instans yang lebih besar untuk node manajer khusus Anda. Karena perannya dalam stabilitas cluster dan penerapan biru/hijau, node manajer khusus harus memiliki CPU penggunaan yang lebih rendah daripada node data. |
ManagerJVMMemoryPressure maksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut |
|
ManagerOldGenJVMMemoryPressure maksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut |
|
KMSKeyError adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Kunci AWS KMS enkripsi yang digunakan untuk mengenkripsi data saat istirahat di domain Anda dinonaktifkan. Aktifkan kembali untuk mengembalikan operasi normal. Untuk informasi selengkapnya, lihat Enkripsi data saat istirahat untuk OpenSearch Layanan Amazon. |
KMSKeyInaccessible adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Kunci AWS KMS enkripsi yang digunakan untuk mengenkripsi data saat istirahat di domain Anda telah dihapus atau telah mencabut hibahnya ke Layanan. OpenSearch Anda tidak dapat memulihkan domain yang berada dalam keadaan ini. Namun, jika Anda memiliki snapshot manual, Anda dapat menggunakannya untuk bermigrasi ke domain baru. Untuk mempelajari selengkapnya, lihat Enkripsi data saat istirahat untuk OpenSearch Layanan Amazon. |
shards.active adalah> = 30000 selama 1 menit, 1 waktu berturut-turut |
Jumlah total pecahan primer dan replika aktif lebih dari 30.000. Anda mungkin memutar indeks Anda terlalu sering. Pertimbangkan ISM untuk menghapus indeks setelah mencapai usia tertentu. |
5xx alarm >= 10% dari OpenSearchRequests |
Satu atau beberapa node data mungkin kelebihan beban, atau permintaan gagal diselesaikan dalam periode batas waktu idle. Pertimbangkan untuk beralih ke jenis instance yang lebih besar atau menambahkan lebih banyak node ke cluster. Konfirmasikan bahwa Anda mengikuti praktik terbaik untuk arsitektur shard dan cluster. |
ManagerReachableFromNode Maksimal < 1 selama 5 menit, 1 kali berturut-turut |
Alarm ini menunjukkan bahwa node manajer berhenti atau tidak dapat dijangkau. Kegagalan ini biasanya merupakan hasil dari masalah konektivitas jaringan atau masalah AWS ketergantungan. |
ThreadpoolWriteQueue Rata-rata adalah >= 100 selama 1 menit, 1 waktu berturut-turut |
Cluster mengalami konkurensi pengindeksan yang tinggi. Meninjau dan mengontrol permintaan pengindeksan, atau meningkatkan sumber daya klaster. |
ThreadpoolSearchQueue Rata-rata adalah> = 500 selama 1 menit, 1 waktu berturut-turut |
Cluster mengalami konkurensi pencarian yang tinggi. Pertimbangkan untuk menskalakan cluster Anda. Anda juga dapat meningkatkan ukuran antrian pencarian, tetapi meningkatkannya secara berlebihan dapat menyebabkan kesalahan memori. |
ThreadpoolSearchQueue maksimum adalah> = 5000 selama 1 menit, 1 kali berturut-turut |
|
Kenaikan ThreadpoolSearchRejected SUM adalah >=1 {ekspresi matematika DIFF ()} selama 1 menit, 1 waktu berturut-turut |
Alarm ini memberi tahu Anda tentang masalah domain yang mungkin memengaruhi kinerja dan stabilitas. |
Kenaikan ThreadpoolWriteRejected SUM adalah >=1 {ekspresi matematika DIFF ()} selama 1 menit, 1 waktu berturut-turut |
catatan
Jika Anda hanya ingin melihat metrik, lihatMemantau metrik OpenSearch klaster dengan Amazon CloudWatch.
Alarm lain yang mungkin Anda pertimbangkan
Pertimbangkan untuk mengonfigurasi alarm berikut tergantung pada fitur OpenSearch Layanan yang sering Anda gunakan.
Alarm | Isu |
---|---|
WarmFreeStorageSpace adalah> = 10% |
Anda telah mencapai 10% dari total penyimpanan hangat gratis Anda. WarmFreeStorageSpace mengukur jumlah ruang penyimpanan hangat gratis Anda di MiB. UltraWarm menggunakan Amazon S3 daripada disk yang terpasang. |
HotToWarmMigrationQueueSize adalah> = 20 selama 1 menit, 3 kali berturut-turut |
Sejumlah besar indeks secara bersamaan bergerak dari panas ke UltraWarm penyimpanan. Pertimbangkan untuk menskalakan cluster Anda. |
HotToWarmMigrationSuccessLatency adalah> = 1 hari, 1 kali berturut-turut |
Konfigurasikan alarm ini sehingga Anda diberi tahu jika latensi |
WarmJVMMemoryPressure maksimum adalah> = 95% selama 1 menit, 3 kali berturut-turut |
Klaster bisa mengalami kesalahan kehabisan memori jika penggunaan meningkat. Pertimbangkan penskalaan secara vertikal. OpenSearch Layanan menggunakan setengah dari instance RAM untuk heap Java, hingga ukuran heap 32 GiB. Anda dapat menskalakan instance secara vertikal hingga 64 GiBRAM, di mana Anda dapat menskalakan secara horizontal dengan menambahkan instance. |
WarmOldGenJVMMemoryPressure maksimum adalah> = 80% selama 1 menit, 3 kali berturut-turut |
|
WarmToColdMigrationQueueSize adalah> = 20 selama 1 menit, 3 kali berturut-turut |
Sejumlah besar indeks secara bersamaan berpindah dari UltraWarm ke cold storage. Pertimbangkan untuk menskalakan cluster Anda. |
HotToWarmMigrationFailureCount adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Migrasi mungkin gagal selama snapshot, relokasi pecahan, atau penggabungan paksa. Kegagalan selama snapshot atau relokasi serpihan biasanya karena kegagalan simpul atau masalah konektivitas S3. Kurangnya ruang disk biasanya menjadi penyebab kegagalan penggabungan paksa. |
WarmToColdMigrationFailureCount adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Migrasi biasanya gagal ketika upaya untuk memigrasikan metadata indeks ke penyimpanan dingin gagal. Kegagalan juga dapat terjadi ketika status cluster indeks hangat sedang dihapus. |
WarmToColdMigrationLatency adalah> = 1 hari, 1 kali berturut-turut |
Konfigurasikan alarm ini sehingga Anda diberi tahu jika latensi |
AlertingDegraded adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Entah indeks peringatan berwarna merah, atau satu atau lebih node tidak sesuai jadwal. |
ADPluginUnhealthy adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Plugin deteksi anomali tidak berfungsi dengan baik, baik karena tingkat kegagalan yang tinggi atau karena salah satu indeks yang digunakan berwarna merah. |
AsynchronousSearchFailureRate adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Setidaknya satu pencarian asinkron gagal di menit terakhir, yang kemungkinan berarti node koordinator gagal. Siklus hidup permintaan pencarian asinkron dikelola hanya pada node koordinator, jadi jika koordinator turun, permintaan gagal. |
AsynchronousSearchStoreHealth adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Kesehatan penyimpanan respons pencarian asinkron dalam indeks bertahan berwarna merah. Anda mungkin menyimpan respons asinkron besar, yang dapat mengacaukan klaster. Cobalah untuk membatasi respons penelusuran asinkron Anda hingga 10 MB atau kurang. |
SQLUnhealthy adalah> = 1 selama 1 menit, 3 kali berturut-turut |
SQLPlugin mengembalikan kode respons 5 xx atau meneruskan kueri DSL yang tidak valid ke. OpenSearch Memecahkan masalah permintaan yang klien Anda buat untuk plugin. |
LTRStatus.red adalah > = 1 untuk 1 menit, 1 kali berturut-turut |
Setidaknya salah satu indeks yang diperlukan untuk menjalankan plugin Learning to Rank memiliki pecahan primer yang hilang dan tidak berfungsi. |