平衡工作量 - 適用於 ONTAP 的 FSx

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

平衡工作量

如果您的檔案系統具有多個高可用性 (HA) 配對,則其輸送量和儲存體會分散到每個 HA 配對中。FSx for ONTAP 會在檔案寫入檔案系統時自動平衡檔案,但是一旦您新增 HA 配對,您的工作負載資料和 I/O 就不會再平衡。此外,在極少數情況下,您的工作負載資料或 I/O 可能會在檔案系統的現有 HA 配對之間變得不平衡,這可能會影響工作負載的整體效能。如果您的工作負載不平衡,您可以在每個檔案系統的 HA 配對 (及其相稱的檔案伺服器和彙總 — 組成主要儲存層的儲存池) 之間重新平衡工作負載。

主要儲存使用率平衡

檔案系統的主要儲存容量會在儲存池中的每個 HA 配對之間平均分配,稱為彙總。每個 HA 對都有一個彙總。建議您持續維持主要儲存層的平均使用率不高於 80%。對於具有多個 HA 配對的檔案系統,建議您保持每個彙總的平均使用率高達 80%。

維持 80% 的使用率可確保有可用空間用於新的傳入資料,並為維護作業維護維護保持良好的額外負荷,這可以暫時在您的彙總上宣告可用空間。

如果您發現彙總不平衡,您可以增加檔案系統的主要儲存容量 (相當地增加每個彙總的儲存容量),或者您可以在彙總之間移動磁碟區。如需詳細資訊,請參閱 在彙總之間移動磁碟區

檔案伺服器與磁碟效能使用不平衡

檔案系統的整體效能能力 (例如網路輸送量、檔案伺服器到磁碟輸送量以及 IOPS,以及磁碟 IOPS) 會在檔案系統的 HA 配對中平均劃分。我們建議您將所有效能限制的平均使用率維持在 50% 以下 (最高尖峰使用率低於 80%),這適用於所有 HA 配對的檔案系統檔案伺服器資源的整體使用率,以及每個檔案伺服器的整體使用率。

如果您發現檔案伺服器效能使用率不平衡,而且工作負載不平衡的檔案伺服器持續使用率超過 80%,您可以使用 ONTAP CLI 和 REST API 進一步診斷效能失衡的原因並加以修復。以下是可能的不平衡指標和進一步診斷的下一步步驟的表。

如果您的文件系統的... Then...

檔案伺服器磁碟輸送量或檔案伺服器磁碟 IOPS 不平衡

您可能遇到 HA 配對子集 (包含存取大量資料的磁碟區子集) 上的 I/O 熱檢查,這可能會限制工作負載的整體效能,因為它對 HA 配對子集產生瓶頸。對於每個高度使用的檔案伺服器,請檢查使用率最高的磁碟區,以查看彙總中哪些磁碟區的活動最多。如需此程序的詳細資訊,請參閱重新平衡磁碟區

網路輸送量不平衡,但檔案伺服器磁碟輸送量、檔案伺服器磁碟 IOPS 或磁碟 IOPS 並未失衡

您的數據均勻分佈在 HA 對之間,但您的客戶不是。如果檔案伺服器的網路輸送量使用率高於其他伺服器,請檢查每部檔案伺服器的常用用戶端,然後從這些用戶端卸載任何磁碟區,然後使用不同 HA 配對上的不同端點重新掛載,以重新平衡這些用戶端。如需此程序的詳細資訊,請參閱重新平衡用戶端

將 CloudWatch 維度對應至 ONTAP CLI 和其餘 API 資源

您的第二代檔案系統具有FileServerAggregate維度的 Amazon CloudWatch 指標。若要進一步診斷不平衡的情況,您需要將這些維度值對應至特定的檔案伺服器 (或節點),並在 ONTAP CLI 或 REST API 中進行彙總。

  • 對於檔案伺服器,每個檔案伺服器名稱都會對應到 ONTAP 中的檔案伺服器 (或節點) 名稱 (例如,FsxId01234567890abcdef-01)。奇數的檔案伺服器是偏好的檔案伺服器 (也就是說,除非檔案系統已容錯移轉至次要檔案伺服器,否則它們會提供流量服務),而偶數的檔案伺服器則是次要檔案伺服器 (也就是說,它們僅在其合作夥伴無法使用時才提供流量)。因此,次要檔案伺服器的使用率通常會比慣用的檔案伺服器少。

  • 對於彙總,每個彙總名稱都會對應至 ONTAP 中的彙總 (例如,aggr1)。每個 HA 配對都有一個彙總,表示彙總aggr1由檔案伺服器 FsxId01234567890abcdef-01 (使用中檔案伺服器) 共用,而 HA 配對中的 FsxId01234567890abcdef-02 (次要檔案伺服器) 共用彙總,彙總aggr2會由檔案伺服器FsxId01234567890abcdef-03共用FsxId01234567890abcdef-04,依此類推。

您可以使用 ONTAP CLI 檢視所有彙總與檔案伺服器之間的對應。

  1. 若要使用 SSH 連線到檔案系統的 NetApp ONTAP CLI,請依照 Amazon FSx 適用於 NetApp ONTAP 使用者指南一使用 NetApp ONTAP CLI節中所述的步驟進行操作。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 使用存儲聚合 show 命令,指定-fields node參數。

    ::> storage aggregate show -fields node aggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.

重新平衡用戶端

新增 HA 配對之後,或者如果您遇到跨檔案伺服器的 I/O 不平衡 (特別是網路輸送量使用率),您可以重新平衡用戶端。如果您要在新增 HA 配對之後重新平衡用戶端,您可以跳到重新掛載用戶端。否則,您應該先識別要移動的高流量用戶端,以重新平衡工作負載 I/O。

如果您遇到跨檔案伺服器的 I/O 不平衡 (特別是網路輸送量使用率),可能是造成高 I/O 用戶端的原因。若要識別高流量的用戶端,請使用 ONTAP CLI。

識別高流量用戶端
  1. 若要使用 SSH 連線到檔案系統的 NetApp ONTAP CLI,請依照 Amazon FSx 適用於 NetApp ONTAP 使用者指南一使用 NetApp ONTAP CLI節中所述的步驟進行操作。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 若要檢視流量最高的用戶端,請使用統計資料常用的用戶端顯示 ONTAP CLI 命令。您可以選擇性地指定-node參數,只檢視特定檔案伺服器的常用用戶端。如果您要診斷特定檔案伺服器的不平衡狀況,請使用-node參數,取代node_name為檔案伺服器的名稱 (例如,)。FsxId01234567890abcdef-01

    您可以選擇性地新增-interval參數,提供輸出每個報表之前測量的間隔 (以秒為單位)。增加間隔 (例如,最大 300 秒) 可為每個磁碟區驅動的流量提供較長期的樣本。預設值為 5 (秒)。

    ::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]

    在輸出中,排名前的用戶端會依其 IP 位址和連接埠顯示。

    *Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
重新掛載用戶端
  • 您可以將用戶端與其他 HA 配對重新平衡。若要這麼做,請從用戶端卸載磁碟區,然後使用 SVM 的 NFS/SMB 端點的 DNS 名稱重新掛接磁碟區 — 這會傳回與隨機 HA 配對對應的隨機端點。

    我們建議您重複使用 DNS 名稱,但您可以選擇明確選擇指定用戶端裝載的 HA 配對。若要確保將用戶端掛載到不同的端點,您可以改為指定與傳輸高流量之檔案伺服器對應的端點 IP 位址不同的端點 IP 位址。您可以執行下列命令來執行此作業:

    ::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node vserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.

    根據statistics top client show命令的示例輸出,客戶端172.17.236.53正在驅動高流量FsxId01234567890abcdef-01network interface show命令的輸出表示這是地址172.31.15.89。若要裝載到不同的端點,請選取任何其他位址 (在此範例中,唯一的其他位址是172.31.8.112對應的FsxId01234567890abcdef-03)。

重新平衡磁碟區

如果您的磁碟區或彙總發生 I/O 不平衡,您可以重新平衡磁碟區,以便在磁碟區之間重新分配 I/O 流量。

注意

如果您在整個彙總中遇到儲存使用率不平衡,除非高使用率加上 I/O 不平衡,否則通常不會對效能造成任何影響。雖然您可以在彙總之間移動磁碟區以平衡儲存使用率,但我們建議您只在發現效能影響時移動磁碟區,因為如果您不同時考慮將 I/O 導向到考慮移動的每個磁碟區,則移動磁碟區可能會對效能造成不利影響。

  1. 若要使用 SSH 連線到檔案系統的 NetApp ONTAP CLI,請依照 Amazon FSx 適用於 NetApp ONTAP 使用者指南一使用 NetApp ONTAP CLI節中所述的步驟進行操作。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 使用統計資料磁碟區 show ONTAP CLI 命令來檢視指定彙總的最高流量磁碟區,並進行下列變更:

    • 彙總的名稱取代彙總名稱 (例如,)。aggr1

    • 您可以選擇性地新增-interval參數,提供輸出每個報表之前測量的間隔 (以秒為單位)。增加間隔 (例如,最大 300 秒) 可為每個磁碟區驅動的流量提供較長期的樣本。預設值為 5 (秒)。

    ::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]

    視您選擇的間隔而定,最多可能需要 5 分鐘才能顯示資料。此命令會顯示彙總中的所有磁碟區,以及導向每個彙總的流量。

    *Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103

    磁碟區統計資料會以每個組成部分為基礎顯示 (例如,vol1__0015是的第 15 個組成部分 FlexGroupvol1)。您可以從示例輸出中看到,的成分比成aggr1分股的利用率更高。aggr2若要平衡彙總之間的流量,您可以在彙總之間移動組成磁碟區,以便更均勻地分佈流量。

  3. 如果您已新增 HA 配對,則應將現有磁碟區移至新彙總。如需更多詳細資訊,請參閱 在彙總之間移動磁碟區