プライマリストレージ使用率のバランスファイルサーバとディスクのパフォーマンス使用率における不均衡 CloudWatch ディメンションを ONTAP CLI および REST API リソースにマッピングするクライアントのバランスの再調整ボリュームのバランスの再調整

HA ペア間でワークロードのバランスをとる

複数の高可用性 (HA) ペアを持つファイルシステムを使用している場合、そのシステムにおけるスループットとストレージは、各 HA ペアに分散されます。FSx for ONTAP は、ファイルシステムに書き込まれるときにファイルのバランスを自動的に調整しますが、HA ペアを追加すると、ワークロードデータと I/O のバランスは取れなくなります。さらに、まれに、ワークロードデータまたは I/O がファイルシステムの既存の HA ペア間で不均衡になる場合があり、ワークロードの全体的なパフォーマンスに影響を与える可能性があります。ワークロードが不均衡である場合、ファイルシステムの各 HA ペア (およびそれらと同等のファイルサーバとアグリゲート、つまりプライマリストレージ階層を構成するストレージプール) 間で、バランスの再調整ができます。

トピック

プライマリストレージ使用率のバランス
ファイルサーバとディスクのパフォーマンス使用率における不均衡
CloudWatch ディメンションを ONTAP CLI および REST API リソースにマッピングする
クライアントのバランスの再調整
ボリュームのバランスの再調整

プライマリストレージ使用率のバランス

ファイルシステムのプライマリストレージ容量は、ストレージプール (アグリゲートと呼ばれます) 内の各 HA ペアに均等に分配されます。各 HA ペアには 1 つのアグリゲートがあります。プライマリストレージ階層の平均使用率は、継続して 80％以下に維持することをお勧めします。複数の HA ペアを使用するファイルシステムの場合は、アグリゲートごとの平均使用率を 80% 以下に維持することをお勧めします。

80% の使用率を維持することで、新しい受信データ用の空き領域が保証されるので、メンテナンス操作がアグリゲートの一時的な空き領域を要求できるだけの、適切なオーバーヘッドが維持されます。

アグリゲートでの不均衡が確認された場合には、ファイルシステムのプライマリストレージ容量 (それに応じた各アグリゲートのストレージ容量) を増加するか、アグリゲート間でボリュームを移動します。詳細については、「アグリゲート間のボリュームの移動」を参照してください。

ファイルサーバとディスクのパフォーマンス使用率における不均衡

ファイルシステムの総合的なパフォーマンス能力 (ネットワークスループット、ファイルサーバーからディスクへのスループットおよび IOPS、ディスク IOPS など) は、ファイルシステムの HA ペア間で均等に配分されます。すべてのパフォーマンス制限について、平均使用率を継続して 50% 未満 (最大ピーク使用率は 80% 未満) に維持することをお勧めします。これは、すべての HA ペアにおけるファイルシステムのファイルサーバーリソースの全体的な使用率と、ファイルサーバーごとの使用率の両方に当てはまります。

ファイルサーバで不均衡なパフォーマンス使用率 (および不均衡なワークロードが置かれたファイルサーバの使用率が継続的に 80% を超えた状態) を確認した場合は、ONTAP CLI と REST API を使用して、パフォーマンスの不均衡の原因を詳細に診断し修正を行います。次の表は、不均衡を示している可能性のある指標と、それを詳細に診断するための手順を示しています。

ファイルシステムの状態	結果...
ファイルサーバーのディスクスループットまたはファイルサーバーのディスク IOPS が不均衡	HA ペアのサブセット (アクセスされているデータが多すぎるボリュームのサブセット) で I/O にホットスポットが発生し、HA ペアのサブセットに対するボトルネックとなっており、ワークロードの全体的なパフォーマンスが制限される可能性があります。使用率の高い各ファイルサーバーについて、最も使用率の高いボリュームをチェックし、アグリゲート内で最もアクティビティの多いボリュームを確認します。この手順の詳細については、「ボリュームのバランスの再調整」を参照してください。
ネットワークスループットに不均衡が生じているものの、ファイルサーバのディスクスループット、ファイルサーバのディスク IOPS、またはディスク IOPS のバランスに不均衡は生じていない	データは HA ペア間で均等に分散されているものの、クライアントの分散が不均衡です。ネットワークスループット使用率が他のサーバーよりも高いファイルサーバーについて、使用率が上位のクライアントを確認し、それらのクライアントからいずれかのボリュームをマウント解除します。その後、別の HA ペアの別のエンドポイントを使用してボリュームを再マウントすることで、クライアントの再調整を行います。この手順の詳細については、「クライアントのバランスの再調整」を参照してください。

ファイルシステムの状態

結果...

ファイルサーバーのディスクスループットまたはファイルサーバーのディスク IOPS が不均衡

HA ペアのサブセット (アクセスされているデータが多すぎるボリュームのサブセット) で I/O にホットスポットが発生し、HA ペアのサブセットに対するボトルネックとなっており、ワークロードの全体的なパフォーマンスが制限される可能性があります。使用率の高い各ファイルサーバーについて、最も使用率の高いボリュームをチェックし、アグリゲート内で最もアクティビティの多いボリュームを確認します。この手順の詳細については、「ボリュームのバランスの再調整」を参照してください。

ネットワークスループットに不均衡が生じているものの、ファイルサーバのディスクスループット、ファイルサーバのディスク IOPS、またはディスク IOPS のバランスに不均衡は生じていない

データは HA ペア間で均等に分散されているものの、クライアントの分散が不均衡です。ネットワークスループット使用率が他のサーバーよりも高いファイルサーバーについて、使用率が上位のクライアントを確認し、それらのクライアントからいずれかのボリュームをマウント解除します。その後、別の HA ペアの別のエンドポイントを使用してボリュームを再マウントすることで、クライアントの再調整を行います。この手順の詳細については、「クライアントのバランスの再調整」を参照してください。

CloudWatch ディメンションを ONTAP CLI および REST API リソースにマッピングする

第 2 世代のファイルシステムには、FileServer または Aggregate のディメンションを持つ Amazon CloudWatch メトリクスが備わっています。不均衡の症状をより詳細に診断するには、これらのディメンション値を ONTAP CLI または REST API の特定のファイルサーバ (またはノード) とアグリゲートにマッピングする必要があります。

ファイルサーバの場合、各ファイルサーバの名前は ONTAP のファイルサーバ (またはノード) の名前 (例: FsxId01234567890abcdef-01) にマップされます。奇数番号のファイルサーバーは、ファイルシステムがセカンダリファイルサーバーにフェイルオーバーされていない限りトラフィックを処理する優先ファイルサーバーです。偶数番号のファイルサーバーは、パートナーが使用できない場合にのみトラフィックを処理するセカンダリファイルサーバーです。このためセカンダリファイルサーバーの使用率は、通常、優先ファイルサーバーよりも低くなります。
アグリゲートの場合、各アグリゲートの名前は ONTAP のアグリゲートにマップされます (例: aggr1)。各 HA ペアにはアグリゲートが 1 つ存在します。つまり、HA ペア内でアグリゲート aggr1 はファイルサーバ FsxId01234567890abcdef-01 (アクティブなファイルサーバ) と FsxId01234567890abcdef-02 (セカンダリファイルサーバ) によって共有され、アグリゲート aggr2 はファイルサーバ FsxId01234567890abcdef-03 および FsxId01234567890abcdef-04 その他によって共有されることを意味します。

ONTAP CLI を使用すると、すべてのアグリゲートとファイルサーバ間のマッピングを表示できます。

ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」の「NetApp ONTAP CLI の使用」のセクションに記載されているステップに従います。
```
ssh fsxadmin@file-system-management-endpoint-ip-address
```

-fields node パラメータを指定して、storage aggregate show コマンドを使用します。


::> storage aggregate show -fields node
aggregate                       node                      
------------------------------- ------------------------- 
aggr1                           FsxId01234567890abcdef-01
aggr2                           FsxId01234567890abcdef-03
aggr3                           FsxId01234567890abcdef-05 
aggr4                           FsxId01234567890abcdef-07
aggr5                           FsxId01234567890abcdef-09
aggr6                           FsxId01234567890abcdef-11 
6 entries were displayed.

クライアントのバランスの再調整

HA ペアを追加した後、またはファイルサーバー間で I/O の不均衡 (特にネットワークスループット使用率による) が発生した場合は、クライアントのバランスを再調整できます。HA ペアを追加した後にクライアントのバランスを再調整する場合は、クライアントの再マウントにスキップできます。それ以外の場合は、ワークロード I/O のバランスを再調整するために、まず移動する、トラフィックの多いクライアントを特定する必要があります。

ファイルサーバー間で I/O の不均衡が (特にネットワークスループット使用率に関して) 発生している場合、I/O クライアントの使用率の高さが原因であと考えられます。トラフィックの多いクライアントを特定するには、ONTAP CLI を使用します。

トラフィックの多いクライアントを特定する

ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」の「NetApp ONTAP CLI の使用」のセクションに記載されているステップに従います。
```
ssh fsxadmin@file-system-management-endpoint-ip-address
```
トラフィックが上位にあるクライアントを表示するには、ONTAP CLI の statistics top client show コマンドを使用します。オプションで -node パラメータを指定すると、特定のファイルサーバの上位クライアントのみを表示できます。特定のファイルサーバーの不均衡を診断する場合は、(node_name をファイルサーバーの名前、例えば FsxId01234567890abcdef-01 に置き換えて) -node パラメーターを使用します。

オプションで -interval パラメーターを追加し、各レポートが出力されるまでの時間を (秒単位で) 測定する間隔を指定できます。この間隔を (たとえば、最大 300 秒にまで) 増加すると、各ボリュームに向かうトラフィック量についての長期的なサンプルが得られます。デフォルト値は 5 (秒)です。
```
::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]
```
出力では、上位のクライアントが IP アドレスとポート別に表示されます。
```
                                                       *Total     Total
            Client   Vserver          Node                Ops     (Bps)
------------------ --------- ------------------------- ------ ---------
 172.17.236.53:938 svm01     FsxId01234567890abcdef-01   2143 140443648
172.17.236.160:898 svm02     FsxId01234567890abcdef-01    812  53215232
```

クライアントの再マウント

クライアントのバランスを他の HA ペアに再調整できます。それを行うためには、クライアントからボリュームをマウント解除し、SVM の NFS/SMB エンドポイントの DNS 名を使用して (これにより、ランダムな HA ペアに対応するランダムなエンドポイントが返されます)、ボリュームを再マウントします。

DNS 名は再利用することが推奨されますが、オプションで、特定のクライアントがマウントする HA ペアを明示的に選択することができます。確実に、別のエンドポイントにクライアントがマウントされるようにするために、トラフィックの多いファイルサーバーに対応する IP アドレスとは別のエンドポイント IP アドレスを指定します。このためには、次のコマンドを実行します。
```
::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node
vserver   lif                  address      curr-node                 
--------- -------------------- ------------ ------------------------- 
svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 
svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 
2 entries were displayed.
```
この statistics top client show コマンドの出力例を見ると、クライアント 172.17.236.53 は多くのトラフィックを FsxId01234567890abcdef-01 に送っています。network interface show コマンドの出力では、このアドレスが 172.31.15.89 であることがわかります。別のエンドポイントにマウントするには、他のいずれかのアドレスを選択します (この例における他のアドレスは、FsxId01234567890abcdef-03 に対応するアドレス 172.31.8.112 だけです)。

ボリュームのバランスの再調整

ボリュームまたはアグリゲート全体で I/O の不均衡が見られる場合は、ボリュームをリバランスすることで I/O トラフィックをボリューム間で再配分できます。

注記

アグリゲート間でストレージの使用率に不均衡が確認されている場合は、通常、高い使用率に I/O の不均衡が伴わない限りパフォーマンスに対する影響はありません。アグリゲート間でボリュームを移動してストレージ使用率のバランスを取ることもできますが、ボリュームの移動はパフォーマンスに影響がある場合にのみ行うことをお勧めします。移動を検討している各ボリュームで発生する I/O も考慮しないと、パフォーマンスに悪影響を及ぼす可能性があるためです。

ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」の「NetApp ONTAP CLI の使用」のセクションに記載されているステップに従います。
```
ssh fsxadmin@file-system-management-endpoint-ip-address
```
ONTAP CLI の statistics volume show コマンドを (以下の点を変更し) 使用して、特定のアグリゲートで最もトラフィックの多いボリュームを表示します。
- aggregate_name は、アグリゲートの名前 (例: aggr1)に置き換えます。
- オプションで -interval パラメーターを追加し、各レポートが出力されるまでの時間を (秒単位で) 測定する間隔を指定できます。この間隔を (たとえば、最大 300 秒にまで) 増加すると、各ボリュームに向かうトラフィック量についての長期的なサンプルが得られます。デフォルト値は 5 (秒)です。
```
::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]
```
選択した間隔によっては、データが表示されるまでに最大 5 分かかることがあります。このコマンドは、アグリゲートに送られているトラフィック量と共に、そのアグリゲート内のすべてのボリュームを表示します。
```
                             *Total Read Write Other      Read Write Latency 
    Volume Vserver Aggregate    Ops  Ops   Ops   Ops     (Bps) (Bps)    (us) 
---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- 
vol1__0007    svm1     aggr1   4078 4078     0     0 267255808     0    1092 
vol1__0005    svm1     aggr1   4078 4078     0     0 267255808     0    1086 
vol1__0003    svm1     aggr1   4077 4077     0     0 267223040     0    1086 
vol1__0001    svm1     aggr1   4077 4077     0     0 267239424     0    1087 
vol1__0008    svm1     aggr2   2314 2314     0     0 151650304     0    1112 
vol1__0006    svm1     aggr2   2144 2144     0     0 140509184     0    1104 
vol1__0002    svm1     aggr2   2183 2183     0     0 143065088     0    1106 
vol1__0004    svm1     aggr2   2183 2183     0     0 143065088     0    1103
```
ボリュームの統計情報は構成要素ごとに表示されます (例えば、vol1__0015 は FlexGroup vol1 の 15 番目の構成要素です)。出力例からわかるように、aggr1 の構成要素での使用率は、aggr2 の構成要素よりも高くなっています。アグリゲート間でトラフィックを均衡させるには、トラフィックがより均等に分散されるように、構成ボリュームをアグリゲート間で移動します。
新しい HA ペアを追加した場合は、既存のボリュームを新しいアグリゲートに移動する必要があります。詳細については、「アグリゲート間のボリュームの移動」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

HA ペアの追加

NVMe キャッシュの管理