Lightsail 中的公制警報 - Amazon Lightsail

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Lightsail 中的公制警報

您可以在 Amazon Lightsail 中建立警示,以監控執行個體、資料庫、負載平衡器和內容交付網路 (CDN) 分發的單一指標。您可將警示設定為根據您所指定閾值的相對指標值來通知您。通知可以是 Lightsail 主控台中顯示的橫幅、傳送至您的電子郵件地址的電子郵件,以及傳送至您的行動電話號碼的簡訊。在本指南中,我們會說明您可設定的警示條件和設定。

內容

設定警示

若要在 Lightsail 主控台中新增警示,請瀏覽至執行個體、資料庫、負載平衡器或 CDN 發佈的「指標」索引標籤。然後選擇要監控的指標,並選擇 Add alarm (新增警示)。您可以為每個指標新增兩個警示。如需指標的詳細資訊,請參閱資源指標

若要設定警示,您必須先識別閾值,這就是警示將變更狀態的指標值 (例如,從 OK 狀態變更為 ALARM 狀態,反之亦然)。如需詳細資訊,請參閱警示狀態。然後選取要用來比較指標與閾值的比較運算子。可用的運算子為 greater than or equal to (大於或等於)greater than (大於)less than (小於)less than or equal to (小於或等於)

然後,您可以指定必須超過閾值的次數,以及將要評估指標的時段,以便進行變更警示的狀態。Lightsail 每 5 分鐘評估一次警示的資料點,而每個資料點代表 5 分鐘的彙總資料期間。例如,如果您指定要在超過閾值 2 次時觸發警示,則評估期間必須在過去 10 分鐘或更長 (最長 24 小時)。如果您指定要在超過閾值 10 次時觸發警示,則評估期間必須在過去 50 分鐘或更長 (最長 24 小時)。

設定警示的條件後,您可以設定您想要收到通知的方式。當鬧鐘從狀態變更為OK狀態時,通知橫幅一律會顯示在 Lightsail 主控台中ALARM。您也可以選擇透過電子郵件和簡訊簡訊收到通知,但您必須設定其通知聯絡人。如需詳細資訊,請參閱指標通知。如果您選擇透過電子郵件和/或簡訊收到通知,您也可以選擇在警示狀態從 ALARM 狀態狀態變更為 OK 時收到通知,該狀態會被視為「警示解除」通知。

在鬧鐘的進階設定中,您可以選擇 Lightsail 如何處理遺失的量度資料。如需詳細資訊,請參閱設定警示處理遺失資料的方式

警示狀態

警示一律處於下列其中一種狀態:

  • ALARM – 指標在定義的閾值外。

    例如,如果您選擇 greater than (大於) 比較運算子,則當指標大於指定的閾值時,警示就會處於 ALARM 狀態。如果您選擇 less than (小於) 比較運算子,則當指標小於指定的閾值時,警示就會處於 ALARM 狀態。

  • OK – 指標位於定義閾值內。

    例如,如果您選擇 greater than (大於) 比較運算子,則當指標小於指定的閾值時,警示就會處於 OK 狀態。如果您選擇 less than (小於) 比較運算子,則當指標大於指定的閾值時,警示就會處於 OK 狀態。

  • INSUFFICIENT_DATA – 警示剛啟動,無法使用指標,或沒有足夠的指標資料可供警示判斷警示狀態。

系統只會針對狀態變更觸發警示。警示不會僅只因為其處於特定狀態而觸發 – 狀態必須已變更。觸發警示時,Lightsail 主控台中會顯示橫幅。您也可將警示設定為透過電子郵件和簡訊通知您。

警示範例

考慮到先前描述的警示條件,您可將警示設定為當執行個體的 CPU 使用率在單一 5 分鐘的期間內有一次大於或等於 5% 時進入 ALARM 狀態。下列範例顯示此鬧鐘在 Lightsail 主控台中的設定。

CPU 使用率警示的範例。

在此範例中,如果執行個體的 CPU 使用率指標報告只有一個資料點的使用率為 5% 或以上,則警示會從 OK 狀態變更為 ALARM 狀態。系統報告使用率為 5% 或以上的每個後續資料點,其警示會保持 ALARM 狀態。當執行個體的 CPU 使用率指標報告只有一個資料點的使用率為 4.9% 或以下,則警示會從 ALARM 狀態變更為 OK 狀態。

下圖進一步說明此警示。紅色虛線代表 5% CPU 使用率閾值,而藍點代表指標資料點。第一個資料點的警示處於 OK 狀態。第二個資料點會將警示變更為 ALARM 狀態,因為此資料點大於閾值。第三和第四個資料點會保持 ALARM 狀態,因為這些資料點持續大於閾值。第五個資料點會將警示變更為 OK 狀態,因為此資料點小於閾值。

警示指標的範例。

設定 警示處理遺失資料的方式

在某些情況下,不會報告具有警示之指標的某些資料點。例如,當失去連線或伺服器當機時,可能會發生這種情況。

Lightsail 可讓您指定在設定警示時如何處理遺失的資料點。這可協助您設定警示,在適合受監控的資料類型時移至 ALARM 狀態。您可以在資料遺失並不表示有問題時避免誤報。

與每個警示總會是三種狀態中的其中一種相似,每個報告的特定資料點都會是三種類別中的其中一種類別:

  • 未違反 – 資料點在閾值內。

    例如,如果您選擇 greater than (大於) 比較運算子,則資料點在小於指定的閾值時就會處於 Not breaching 狀態。如果您選擇 less than (小於) 比較運算子,則資料點在大於指定的閾值時就會處於 Not breaching 狀態。

  • 違反 – 資料點超出閾值。

    例如,如果您選擇 greater than (大於) 比較運算子,則資料點在大於指定的閾值時就會處於 Breaching 狀態。如果您選擇 less than (小於) 比較運算子,則資料點在小於指定的閾值時就會處於 Breaching 狀態。

  • 遺失 – 遺失資料點的行為是由 treat missing data 參數指定。

對於每個警報,您可以指定 Lightsail 將遺失的資料點視為下列任一項目:

  • 未違反 – 將遺失的資料點視為「良好」且在閾值內。

  • 違反 – 將遺失的資料點視為「不良」且超出閾值。

  • 忽略 – 維持目前的警示狀態。

  • 遺失 – 在評估是否變更狀態時,警示不會考慮遺失的資料點。這是警示的預設行為。

最佳選擇取決於指標類型。對於執行個體的 CPU 使用率之類的指標,您可以將遺失資料點視為違反。這是因為遺失資料點可能表示發生問題。但是,對於只有在發生錯誤時才會產生資料點的指標 (例如負載平衡器的 HTTP 500 伺服器錯誤計數),您可以將遺失的資料視為未違反。

為警示選擇最佳選項,可避免不必要且誤導的警示條件變更。也可以更準確地指出系統的運作狀態。

資料遺失時評估警示狀態的方式

無論您為如何處理遺失的資料設定什麼值,當警示評估是否要變更狀態時,Lightsail 都會嘗試擷取比「評估期間」指定的資料點數量更多。其嘗試擷取的確切資料點數取決於警示期間的長度。其嘗試擷取的資料點時間範圍便是評估範圍。

Lightsail 擷取這些資料點之後,會發生下列情況:

  • 如果評估範圍內沒有資料點遺失,Lightsail 會根據最近收集的資料點來評估警示。

  • 如果評估範圍中的某些資料點遺失,但收集的現有資料點數量等於或大於警示的評估期間,Lightsail 會根據最近成功收集的現有資料點評估警示狀態。在這種情況下,不需要您針對遺失資料處理方式所設定的值,而後會予以忽略。

  • 如果評估範圍中的某些資料點遺失,且收集的現有資料點數量小於警示的評估期間數,Lightsail 會使用您為如何處理遺失資料所指定的結果填入遺失的資料點,然後評估警示。不過,在評估範圍內的所有真實資料點 (無論何時報告) 都包含在評估內。Lightsail 只會盡可能少地使用遺失的資料點。

在這些情況下,評估的資料點數目等於 Evaluation periods (評估期間) 的值。如果少於違反 Data points to alarm (要警示的資料點) 值,則違反的警示狀態設定為 OK。否則狀態設定為 ALARM。

注意

此行為的特定情況是,在指標停止流動後,Lightsail 警示可能會在一段時間內重複重新評估最後一組資料點。此重新評估可能會導致警示變更狀態和重新執行動作 (如果在指標串流停止前便已立即變更狀態的話)。為了減少這種行為,請使用較短的期間。

圖表範例中的遺失資料

這一節中的下列圖表協助說明警示評估行為的範例。在圖表 A、B、C、D 和 E 中,必須違反才會警示的資料點數目和評估時段都是 3。紅色虛線代表閾值,藍點代表有效的資料點,而虛線則代表遺失的資料。閾值線以上是違反的資料點,閾值以下則是未違反的資料點。如果最近三個資料點中的某些遺失,Lightsail 會嘗試擷取其他有效資料點。

注意

如果在您建立警示後不久遺失資料點,而且在您建立鬧鐘之前已向 Lightsail 報告量度,Lightsail 會在評估警示時,從建立警示之前擷取最新的資料點。

圖表 A

遺失資料圖表 A。

在前面的圖表指標中,資料點 1 在閾值內、資料點 2 遺失、資料點 3 違反、資料點 4 遺失,而資料點 5 違反。假設評估範圍中有三個有效資料點,則此指標沒有遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 OK 狀態。

  • 忽略 – 警示處於 OK 狀態。

  • 遺失 – 警示處於 OK 狀態。

圖表 B

遺失資料圖表 B。

在前面的圖表指標中,資料點 1 在閾值內,而資料點 2 到 5 遺失。假設評估範圍中只有一個資料點,則此指標有兩個遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 OK 狀態。

  • 忽略 – 警示處於 OK 狀態。

  • 遺失 – 警示處於 OK 狀態。

在此案例中,即使遺失資料被視為違反,警示仍會維持 OK 狀態。這是因為有一個現有資料點並未違反,而且這個資料點會與兩個被視為違反的遺失資料點一起進行評估。下次評估此警示時,如果資料仍然遺失,則會進入 ALARM 狀態。這是因為未違反的資料點不再是最近擷取的五個資料點之一。

圖表 C

遺失資料圖表 C。

在前面的圖表指標中所有的資料點都遺失了。假設評估範圍中的所有資料點都遺失,則此指標有三個遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示會維持目前狀態。

  • 遺失 – 警示處於 INSUFFICIENT_DATA 狀態。

圖表 D

遺失資料圖表 D。

在前面的圖表指標中,資料點 1 在閾值內、資料點 2 違反、資料點 3 違反、資料點 4 遺失,而資料點 5 違反。假設評估範圍中有四個有效資料點,則此指標沒有遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 ALARM 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示處於 ALARM 狀態。

  • 遺失 – 警示處於 ALARM 狀態。

在此案例中,警示會在所有情況下進入 ALARM 狀態。這是因為有足夠的實際資料點不需要遺失資料處理方式的設定,而後會予以忽略。

圖表 E

遺失資料圖表 E。

在前面的圖表指標中,資料點 1 和 2 遺失、資料點 3 違反,而資料點 4 和 5 遺失。假設評估範圍中只有一個資料點,則此指標有兩個遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示會維持目前狀態。

  • 遺失 – 警示處於 ALARM 狀態。

在圖表 F、G、H、I 和 J 中,Datapoints to alarm (要警示的資料點)為 2,而 Evaluation periods (評估期間) 為 3。這是指 3 個警示中有 2 個,N 個警示中有 M 個。5 是警示的評估範圍。

圖表 F

遺失資料圖表 F。

在前面的圖表指標中,資料點 1 在閾值內、資料點 2 遺失、資料點 3 違反、資料點 4 遺失,而資料點 5 違反。假設評估範圍中有三個資料點,則此指標沒有遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 ALARM 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示處於 ALARM 狀態。

  • 遺失 – 警示處於 ALARM 狀態。

圖表 G

遺失資料圖表 G。

在前面的圖表指標中,資料點 1 和 2 在閾值內、資料點 3 違反、資料點 4 在閾值內,而資料點 5 違反。假設評估範圍中有五個資料點,則此指標沒有遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 ALARM 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示處於 ALARM 狀態。

  • 遺失 – 警示處於 ALARM 狀態。

圖表 H

遺失資料圖表 H。

在前面的圖表指標中,資料點 1 在閾值內、資料點 2 遺失、資料點 3 違反,而資料點 4 和 5 遺失。假設評估範圍中有兩個資料點,則此指標有一個遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示處於 OK 狀態。

  • 遺失 – 警示處於 OK 狀態。

圖表 I

遺失資料圖表 I。

在前面的圖表指標中,資料點 1 到 4 遺失,而資料點 5 在閾值內。假設評估範圍中有一個資料點,則此指標有兩個遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示處於 OK 狀態。

  • 遺失 – 警示處於 OK 狀態。

圖表 J

遺失資料圖表 J。

在前面的圖表指標中,資料點 1 和 2 遺失、資料點 3 違反,而資料點 4 和 5 遺失。假設評估範圍中有一個資料點,則此指標有兩個遺失資料點。如果您將警示設定為將遺失的資料點視為:

  • 未違反 – 警示處於 OK 狀態。

  • 違反 – 警示處於 ALARM 狀態。

  • 忽略 – 警示會維持目前狀態。

  • 遺失 – 警示處於 ALARM 狀態。

有關警示的詳細資訊

以下是一些可協助您在 Lightsail 中管理鬧鐘的文章: