本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
平衡工作量
如果您的檔案系統具有多個高可用性 (HA) 配對,則其輸送量和儲存體會分散到每個 HA 配對中。FSx for ONTAP 會在檔案寫入檔案系統時自動平衡檔案,但是一旦您新增 HA 配對,您的工作負載資料和 I/O 就不會再平衡。此外,在極少數情況下,您的工作負載資料或 I/O 可能會在檔案系統的現有 HA 配對之間變得不平衡,這可能會影響工作負載的整體效能。如果您的工作負載不平衡,您可以在每個檔案系統的 HA 配對 (及其相稱的檔案伺服器和彙總 — 組成主要儲存層的儲存池) 之間重新平衡工作負載。
主要儲存使用率平衡
檔案系統的主要儲存容量會在儲存池中的每個 HA 配對之間平均分配,稱為彙總。每個 HA 對都有一個彙總。建議您持續維持主要儲存層的平均使用率不高於 80%。對於具有多個 HA 配對的檔案系統,建議您保持每個彙總的平均使用率高達 80%。
維持 80% 的使用率可確保有可用空間用於新的傳入資料,並為維護作業維護維護保持良好的額外負荷,這可以暫時在您的彙總上宣告可用空間。
如果您發現彙總不平衡,您可以增加檔案系統的主要儲存容量 (相當地增加每個彙總的儲存容量),或者您可以在彙總之間移動磁碟區。如需詳細資訊,請參閱 在彙總之間移動磁碟區。
檔案伺服器與磁碟效能使用不平衡
檔案系統的整體效能能力 (例如網路輸送量、檔案伺服器到磁碟輸送量以及 IOPS,以及磁碟 IOPS) 會在檔案系統的 HA 配對中平均劃分。我們建議您將所有效能限制的平均使用率維持在 50% 以下 (最高尖峰使用率低於 80%),這適用於所有 HA 配對的檔案系統檔案伺服器資源的整體使用率,以及每個檔案伺服器的整體使用率。
如果您發現檔案伺服器效能使用率不平衡,而且工作負載不平衡的檔案伺服器持續使用率超過 80%,您可以使用 ONTAP CLI 和 REST API 進一步診斷效能失衡的原因並加以修復。以下是可能的不平衡指標和進一步診斷的下一步步驟的表。
如果您的文件系統的... | Then... |
---|---|
檔案伺服器磁碟輸送量或檔案伺服器磁碟 IOPS 不平衡 |
您可能遇到 HA 配對子集 (包含存取大量資料的磁碟區子集) 上的 I/O 熱檢查,這可能會限制工作負載的整體效能,因為它對 HA 配對子集產生瓶頸。對於每個高度使用的檔案伺服器,請檢查使用率最高的磁碟區,以查看彙總中哪些磁碟區的活動最多。如需此程序的詳細資訊,請參閱重新平衡磁碟區。 |
網路輸送量不平衡,但檔案伺服器磁碟輸送量、檔案伺服器磁碟 IOPS 或磁碟 IOPS 並未失衡 |
您的數據均勻分佈在 HA 對之間,但您的客戶不是。如果檔案伺服器的網路輸送量使用率高於其他伺服器,請檢查每部檔案伺服器的常用用戶端,然後從這些用戶端卸載任何磁碟區,然後使用不同 HA 配對上的不同端點重新掛載,以重新平衡這些用戶端。如需此程序的詳細資訊,請參閱重新平衡用戶端。 |
將 CloudWatch 維度對應至 ONTAP CLI 和其餘 API 資源
您的第二代檔案系統具有FileServer
或Aggregate
維度的 Amazon CloudWatch 指標。若要進一步診斷不平衡的情況,您需要將這些維度值對應至特定的檔案伺服器 (或節點),並在 ONTAP CLI 或 REST API 中進行彙總。
對於檔案伺服器,每個檔案伺服器名稱都會對應到 ONTAP 中的檔案伺服器 (或節點) 名稱 (例如,
FsxId01234567890abcdef-01
)。奇數的檔案伺服器是偏好的檔案伺服器 (也就是說,除非檔案系統已容錯移轉至次要檔案伺服器,否則它們會提供流量服務),而偶數的檔案伺服器則是次要檔案伺服器 (也就是說,它們僅在其合作夥伴無法使用時才提供流量)。因此,次要檔案伺服器的使用率通常會比慣用的檔案伺服器少。對於彙總,每個彙總名稱都會對應至 ONTAP 中的彙總 (例如,
aggr1
)。每個 HA 配對都有一個彙總,表示彙總aggr1
由檔案伺服器FsxId01234567890abcdef-01
(使用中檔案伺服器) 共用,而 HA 配對中的FsxId01234567890abcdef-02
(次要檔案伺服器) 共用彙總,彙總aggr2
會由檔案伺服器FsxId01234567890abcdef-03
共用FsxId01234567890abcdef-04
,依此類推。
您可以使用 ONTAP CLI 檢視所有彙總與檔案伺服器之間的對應。
-
若要使用 SSH 連線到檔案系統的 NetApp ONTAP CLI,請依照 Amazon FSx 適用於 NetApp ONTAP 使用者指南一使用 NetApp ONTAP CLI節中所述的步驟進行操作。
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
使用存儲聚合 show
命令,指定 -fields node
參數。::>
storage aggregate show -fields nodeaggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.
重新平衡用戶端
新增 HA 配對之後,或者如果您遇到跨檔案伺服器的 I/O 不平衡 (特別是網路輸送量使用率),您可以重新平衡用戶端。如果您要在新增 HA 配對之後重新平衡用戶端,您可以跳到重新掛載用戶端。否則,您應該先識別要移動的高流量用戶端,以重新平衡工作負載 I/O。
如果您遇到跨檔案伺服器的 I/O 不平衡 (特別是網路輸送量使用率),可能是造成高 I/O 用戶端的原因。若要識別高流量的用戶端,請使用 ONTAP CLI。
識別高流量用戶端
-
若要使用 SSH 連線到檔案系統的 NetApp ONTAP CLI,請依照 Amazon FSx 適用於 NetApp ONTAP 使用者指南一使用 NetApp ONTAP CLI節中所述的步驟進行操作。
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
若要檢視流量最高的用戶端,請使用統計資料常用的用戶端顯示
ONTAP CLI 命令。您可以選擇性地指定 -node
參數,只檢視特定檔案伺服器的常用用戶端。如果您要診斷特定檔案伺服器的不平衡狀況,請使用-node
參數,取代node_name
為檔案伺服器的名稱 (例如,)。FsxId01234567890abcdef-01
您可以選擇性地新增
-interval
參數,提供輸出每個報表之前測量的間隔 (以秒為單位)。增加間隔 (例如,最大 300 秒) 可為每個磁碟區驅動的流量提供較長期的樣本。預設值為5
(秒)。::>
statistics top client show -nodeFsxId01234567890abcdef-01
[-interval [5,300]]在輸出中,排名前的用戶端會依其 IP 位址和連接埠顯示。
*Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
重新掛載用戶端
-
您可以將用戶端與其他 HA 配對重新平衡。若要這麼做,請從用戶端卸載磁碟區,然後使用 SVM 的 NFS/SMB 端點的 DNS 名稱重新掛接磁碟區 — 這會傳回與隨機 HA 配對對應的隨機端點。
我們建議您重複使用 DNS 名稱,但您可以選擇明確選擇指定用戶端裝載的 HA 配對。若要確保將用戶端掛載到不同的端點,您可以改為指定與傳輸高流量之檔案伺服器對應的端點 IP 位址不同的端點 IP 位址。您可以執行下列命令來執行此作業:
::>
network interface show -vserversvm_name
-lif nfs_smb_management* -fields address,curr-nodevserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.
根據
statistics top client show
命令的示例輸出,客戶端172.17.236.53
正在驅動高流量FsxId01234567890abcdef-01
。network interface show
命令的輸出表示這是地址172.31.15.89
。若要裝載到不同的端點,請選取任何其他位址 (在此範例中,唯一的其他位址是172.31.8.112
對應的FsxId01234567890abcdef-03
)。
重新平衡磁碟區
如果您的磁碟區或彙總發生 I/O 不平衡,您可以重新平衡磁碟區,以便在磁碟區之間重新分配 I/O 流量。
注意
如果您在整個彙總中遇到儲存使用率不平衡,除非高使用率加上 I/O 不平衡,否則通常不會對效能造成任何影響。雖然您可以在彙總之間移動磁碟區以平衡儲存使用率,但我們建議您只在發現效能影響時移動磁碟區,因為如果您不同時考慮將 I/O 導向到考慮移動的每個磁碟區,則移動磁碟區可能會對效能造成不利影響。
-
若要使用 SSH 連線到檔案系統的 NetApp ONTAP CLI,請依照 Amazon FSx 適用於 NetApp ONTAP 使用者指南一使用 NetApp ONTAP CLI節中所述的步驟進行操作。
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
使用統計資料磁碟區 show ONTAP CLI 命令來檢視指定彙總的最高流量
磁碟區,並進行下列變更: 以
彙總的名稱
取代彙總名稱 (例如,)。aggr1
您可以選擇性地新增
-interval
參數,提供輸出每個報表之前測量的間隔 (以秒為單位)。增加間隔 (例如,最大 300 秒) 可為每個磁碟區驅動的流量提供較長期的樣本。預設值為5
(秒)。
::>
statistics volume show -aggregate
aggregate_name
-sort-key total_ops [-interval [5,300]]視您選擇的間隔而定,最多可能需要 5 分鐘才能顯示資料。此命令會顯示彙總中的所有磁碟區,以及導向每個彙總的流量。
*Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103
磁碟區統計資料會以每個組成部分為基礎顯示 (例如,
vol1__0015
是的第 15 個組成部分 FlexGroupvol1
)。您可以從示例輸出中看到,的成分比成aggr1
分股的利用率更高。aggr2
若要平衡彙總之間的流量,您可以在彙總之間移動組成磁碟區,以便更均勻地分佈流量。 -
如果您已新增 HA 配對,則應將現有磁碟區移至新彙總。如需更多詳細資訊,請參閱 在彙總之間移動磁碟區。