FSx for ONTAP ワークロードバランスのモニタリング - FSx for ONTAP

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

FSx for ONTAP ワークロードバランスのモニタリング

複数の HA ペアを持つファイルシステムを使用している場合、そのシステムにおけるパフォーマンスとスループットは、各 HA ペアに分散されます。FSx for ONTAP は、ファイルがファイルシステムに書き込まれる際、自動的にファイルのバランスを調整します。ただまれに、ワークロードのデータまたは I/O が HA ペア間で不均衡になり、ワークロードの全体的なパフォーマンスに影響を与えることがあります。ファイルシステムの各 HA ペア (およびそれらと同等のファイルサーバとアグリゲート、つまりプライマリストレージ階層を構成するストレージプール) 間で、負荷のバランスが保たれていることを確認するために、ワークロードをモニタリングできます。

プライマリストレージ使用率のバランス

ファイルシステムのプライマリストレージ容量は、ストレージプール (アグリゲートと呼ばれます) 内の各 HA ペアに均等に分配されます。各 HA ペアには 1 つのアグリゲートがあります。プライマリストレージ階層の平均使用率は、継続して 80% 以下に維持することをお勧めします。複数の HA ペアを使用するファイルシステムの場合は、アグリゲートごとの平均使用率を 80% 以下に維持することをお勧めします。

80% の使用率を維持することで、新しい受信データ用の空き領域が保証されるので、メンテナンス操作がアグリゲートの一時的な空き領域を要求できるだけの、適切なオーバーヘッドが維持されます。

アグリゲートでの不均衡が確認された場合には、ファイルシステムのプライマリストレージ容量 (それに応じた各アグリゲートのストレージ容量) を増加するか、ONTAP CLI の volume move コマンドを使用してアグリゲート間でボリュームを移動します。

ファイルサーバとディスクのパフォーマンス使用率における不均衡

ファイルシステムの総合的なパフォーマンス能力 (ネットワークスループット、ファイルサーバーからディスクへのスループットおよび IOPS、ディスク IOPS など) は、ファイルシステムの HA ペア間で均等に配分されます。すべてのパフォーマンス制限について、平均使用率を継続して 50% 未満 (最大ピーク使用率は 80% 未満) に維持することをお勧めします。これは、すべての HA ペアにおけるファイルシステムのファイルサーバーリソースの全体的な使用率と、ファイルサーバーごとの使用率の両方に当てはまります。

ファイルサーバで不均衡なパフォーマンス使用率 (および不均衡なワークロードが置かれたファイルサーバの使用率が継続的に 80% を超えた状態) を確認した場合は、ONTAP CLI と REST API を使用して、パフォーマンスの不均衡の原因を詳細に診断し修正を行います。次の表は、不均衡を示している可能性のある指標と、それを詳細に診断するための手順を示しています。

ファイルシステムの状態 結果...

ファイルサーバーのディスクスループットまたはファイルサーバーのディスク IOPS が不均衡

HA ペアのサブセット (アクセスされているデータが多すぎるボリュームのサブセット) で I/O にホットスポットが発生し、HA ペアのサブセットに対するボトルネックとなっており、ワークロードの全体的なパフォーマンスが制限される可能性があります。使用率の高い各ファイルサーバーについて、最も使用率の高いボリュームをチェックし、アグリゲート内で最もアクティビティの多いボリュームを確認します。この手順の詳細については、「使用率の高いボリュームのリバランシング」を参照してください。

ネットワークスループットに不均衡が生じているものの、ファイルサーバのディスクスループット、ファイルサーバのディスク IOPS、またはディスク IOPS のバランスに不均衡は生じていない

データは HA ペア間で均等に分散されているものの、クライアントの分散が不均衡です。ネットワークスループット使用率が他のサーバーよりも高いファイルサーバーについて、使用率が上位のクライアントを確認し、それらのクライアントからいずれかのボリュームをマウント解除します。その後、別の HA ペアの別のエンドポイントを使用してボリュームを再マウントすることで、クライアントの再調整を行います。この手順の詳細については、「トラフィックの多いクライアントのリバランシング」を参照してください。

ONTAP CLI および REST API リソースへの CloudWatch ディメンションのマッピング

スケールアウトファイルシステムには、 FileServerまたは Aggregateディメンションの Amazon CloudWatch メトリクスがあります。不均衡の症状をより詳細に診断するには、これらのディメンション値を ONTAP CLI または REST API の特定のファイルサーバ (またはノード) とアグリゲートにマッピングする必要があります。

  • ファイルサーバの場合、各ファイルサーバの名前は ONTAP のファイルサーバ (またはノード) の名前 (例: FsxId01234567890abcdef-01) にマップされます。奇数番号のファイルサーバーは、ファイルシステムがセカンダリファイルサーバーにフェイルオーバーされていない限りトラフィックを処理する優先ファイルサーバーです。偶数番号のファイルサーバーは、パートナーが使用できない場合にのみトラフィックを処理するセカンダリファイルサーバーです。このためセカンダリファイルサーバーの使用率は、通常、優先ファイルサーバーよりも低くなります。

  • アグリゲートの場合、各アグリゲートの名前は ONTAP のアグリゲートにマップされます (例: aggr1)。HA ペアごとに 1 つのアグリゲートがあります。つまり、アグリゲートaggr1は HA ペアのファイルサーバー FsxId01234567890abcdef-01 (アクティブなファイルサーバー) と FsxId01234567890abcdef-02 (セカンダリファイルサーバー) で共有され、アグリゲートaggr2はファイルサーバーFsxId01234567890abcdef-03と で共有FsxId01234567890abcdef-04されます。

ONTAP CLI を使用すると、すべてのアグリゲートとファイルサーバ間のマッピングを表示できます。

  1. ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」のNetApp ONTAP CLI の使用「」セクションに記載されているステップに従います。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. -fields node パラメータを指定して、storage aggregate show コマンドを使用します。

    ::> storage aggregate show -fields node aggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.

トラフィックの多いクライアントのリバランシング

ファイルサーバー間で I/O の不均衡が (特にネットワークスループット使用率に関して) 発生している場合、I/O クライアントの使用率の高さが原因であと考えられます。トラフィックの多いクライアントを特定するには、ONTAP CLI を使用します。

  1. ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」のNetApp ONTAP CLI の使用「」セクションに記載されているステップに従います。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. トラフィックが上位にあるクライアントを表示するには、ONTAP CLI の statistics top client show コマンドを使用します。オプションで -node パラメータを指定すると、特定のファイルサーバの上位クライアントのみを表示できます。特定のファイルサーバーの不均衡を診断する場合は、(node_name をファイルサーバーの名前、例えば FsxId01234567890abcdef-01 に置き換えて) -node パラメーターを使用します。

    オプションで -interval パラメーターを追加し、各レポートが出力されるまでの時間を (秒単位で) 測定する間隔を指定できます。この間隔を (たとえば、最大 300 秒にまで) 増加すると、各ボリュームに向かうトラフィック量についての長期的なサンプルが得られます。デフォルト値は 5 (秒)です。

    ::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]

    出力では、上位のクライアントが IP アドレスとポート別に表示されます。

    *Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
  3. 一覧表示されたトラフィックの多いクライアントのサブセットは、他のファイルサーバに再配分できます。それを行うためには、クライアントからボリュームをマウント解除し、SVM の NFS/SMB エンドポイントの DNS 名を使用して (これにより、ランダムな HA ペアに対応するランダムなエンドポイントが返されます)、ボリュームを再マウントします。

    DNS 名は再利用することが推奨されますが、オプションで、特定のクライアントがマウントする HA ペアを明示的に選択することができます。確実に、別のエンドポイントにクライアントがマウントされるようにするために、トラフィックの多いノードに対応する IP アドレスとは別のエンドポイント IP アドレスを指定します。このためには、次の コマンドを実行します。

    ::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node vserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.

    この statistics top client show コマンドの出力例を見ると、クライアント 172.17.236.53 は多くのトラフィックを FsxId01234567890abcdef-01 に送っています。network interface show コマンドの出力では、このアドレスが 172.31.15.89 であることがわかります。別のエンドポイントにマウントするには、他のいずれかのアドレスを選択します (この例における他のアドレスは、FsxId01234567890abcdef-03 に対応するアドレス 172.31.8.112 だけです)。

使用率の高いボリュームのリバランシング

ボリュームまたはアグリゲート全体で I/O の不均衡が見られる場合は、ボリュームをリバランスすることで I/O トラフィックをボリューム間で再配分できます。

注記

アグリゲート間でストレージの使用率に不均衡が確認されている場合は、通常、高い使用率に I/O の不均衡が伴わない限りパフォーマンスに対する影響はありません。アグリゲート間でボリュームを移動してストレージ使用率のバランスを取ることもできますが、ボリュームの移動はパフォーマンスに影響がある場合にのみ行うことをお勧めします。移動を検討している各ボリュームで発生する I/O も考慮しないと、パフォーマンスに悪影響を及ぼす可能性があるためです。

  1. ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」のNetApp ONTAP CLI の使用「」セクションに記載されているステップに従います。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. ONTAP CLI の statistics volume show コマンドを (以下の点を変更し) 使用して、特定のアグリゲートで最もトラフィックの多いボリュームを表示します。

    • aggregate_name は、アグリゲートの名前(例: aggr1)に置き換えます。

    • オプションで -interval パラメーターを追加し、各レポートが出力されるまでの時間を (秒単位で) 測定する間隔を指定できます。この間隔を (たとえば、最大 300 秒にまで) 増加すると、各ボリュームに向かうトラフィック量についての長期的なサンプルが得られます。デフォルト値は 5 (秒)です。

    ::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]

    選択した間隔によっては、データが表示されるまでに最大 5 分かかることがあります。このコマンドは、アグリゲートに送られているトラフィック量と共に、そのアグリゲート内のすべてのボリュームを表示します。

    *Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103

    ボリュームの統計情報は構成要素ごとに表示されます(例えば、vol1__0015 は FlexGroup vol1 の 15 番目の構成要素です)。出力例からわかるように、aggr1 の構成要素での使用率は、aggr2 の構成要素よりも高くなっています。アグリゲート間でトラフィックを均衡させるには、トラフィックがより均等に分散されるように、構成ボリュームをアグリゲート間で移動します。

  3. アグリゲート間でボリュームを移動するには、ONTAP CLI の volume move start コマンドを (次の値を置き換えて) 使用します。

    • svm_name は、移行対象のボリュームをホストしている SVM の名前に置き換えます。

    • volume_nameは、ボリューム構成要素の名前 (例: vol1__0001) に置き換えます。

    • aggregate_name は、ボリュームの移動先アグリゲートの名前に置き換えます。

    重要

    ボリュームの移動では、ソースおよびターゲットのファイルサーバにおいて、ネットワークとディスクのリソースが消費されます。その結果、進行中のボリューム移動プロセスが、ワークロードのパフォーマンスに影響を与える可能性があります。さらに、ボリューム移動プロセスにはカットオーバーフェーズも存在し、ボリュームへのトラフィックの I/O を一時的に停止させます。

    ::> volume move start -vserver svm_name -volume volume_name -destination aggregate_name -foreground false [Job 1] Job is queued: Move "vol1__0001" in Vserver "svm01" to aggregate "aggr1". Use the "volume move show -vserver svm01 -volume vol1__0001" command to view the status of this operation.

    ボリューム移動操作の状態を確認するには、ONTAP CLI の volume move show コマンドを使用します。

    ::> volume move show -vserver svm_name -volume volume_name Vserver Name: svm01 Volume Name: vol1__0001 Actual Completion Time: - Bytes Remaining: 1.00TB Specified Action For Cutover: retry_on_failure Specified Cutover Time Window: 30 Destination Aggregate: aggr2 Destination Node: FsxId01234567890abcdef-03 Detailed Status: Transferring data: 12.23GB sent. Percentage Complete: 1% Move Phase: replicating Prior Issues Encountered: - Estimated Remaining Duration: 00:40:25 Replication Throughput: 434.3MB/s Duration of Move: 00:00:27 Source Aggregate: aggr2 Source Node: FsxId01234567890abcdef-01 Move State: healthy

    このコマンドでは、情報フィールドの 1 つとして、移動が完了するまでの推定時間を表示します。操作が終了した場合は、この同じコマンドで、Move Phase フィールドに完了したことが表示されます。

各 FlexGroup が、アグリゲート全体で均等に分散されていることを確認してください。構成要素の数は、各アグリゲートで推奨される 8 個となることが理想的です。1 つの構成ボリュームを、他の点ではバランスが取れている FlexGroup のために別のアグリゲートに移動した際には、バランスを保つために、別の (使用率の低い) 構成ボリュームをソースのアグリゲートに移動する必要があります。