ワークロードのバランスを取る - ONTAP に関する FSx

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ワークロードのバランスを取る

複数の高可用性 (HA) ペアを持つファイルシステムがある場合、そのスループットとストレージは各 HA ペアに分散されます。FSx for ONTAP は、ファイルシステムに書き込まれるときにファイルを自動的にバランスしますが、HA ペアを追加すると、ワークロードデータと I/O のバランスは取れなくなります。さらに、まれに、ワークロードデータまたは I/O がファイルシステムの既存の HA ペア間で不均衡になり、ワークロードの全体的なパフォーマンスに影響を与える可能性があります。ワークロードに不均衡がある場合は、ファイルシステムの各 HA ペア (および同等のファイルサーバーとアグリゲート、つまりプライマリストレージ層を構成するストレージプール) 間でワークロードを再調整できます。

プライマリストレージ使用率のバランス

ファイルシステムのプライマリストレージ容量は、ストレージプール (アグリゲートと呼ばれます) 内の各 HA ペアに均等に分配されます。各 HA ペアには 1 つのアグリゲートがあります。プライマリストレージ階層の平均使用率は、継続して 80% 以下に維持することをお勧めします。複数の HA ペアを使用するファイルシステムの場合は、アグリゲートごとの平均使用率を 80% 以下に維持することをお勧めします。

80% の使用率を維持することで、新しい受信データ用の空き領域が保証されるので、メンテナンス操作がアグリゲートの一時的な空き領域を要求できるだけの、適切なオーバーヘッドが維持されます。

アグリゲートに不均衡があることに気付いた場合は、ファイルシステムのプライマリストレージ容量を増やすか (各アグリゲートのストレージ容量を適切に増やす)、アグリゲート間でボリュームを移動できます。詳細については、「アグリゲート間でのボリュームの移動」を参照してください。

ファイルサーバとディスクのパフォーマンス使用率における不均衡

ファイルシステムの総合的なパフォーマンス能力 (ネットワークスループット、ファイルサーバーからディスクへのスループットおよび IOPS、ディスク IOPS など) は、ファイルシステムの HA ペア間で均等に配分されます。すべてのパフォーマンス制限について、平均使用率を継続して 50% 未満 (最大ピーク使用率は 80% 未満) に維持することをお勧めします。これは、すべての HA ペアにおけるファイルシステムのファイルサーバーリソースの全体的な使用率と、ファイルサーバーごとの使用率の両方に当てはまります。

ファイルサーバで不均衡なパフォーマンス使用率 (および不均衡なワークロードが置かれたファイルサーバの使用率が継続的に 80% を超えた状態) を確認した場合は、ONTAP CLI と REST API を使用して、パフォーマンスの不均衡の原因を詳細に診断し修正を行います。次の表は、不均衡を示している可能性のある指標と、それを詳細に診断するための手順を示しています。

ファイルシステムの状態 結果...

ファイルサーバーのディスクスループットまたはファイルサーバーのディスク IOPS が不均衡

HA ペアのサブセット (アクセスされているデータが多すぎるボリュームのサブセット) で I/O にホットスポットが発生し、HA ペアのサブセットに対するボトルネックとなっており、ワークロードの全体的なパフォーマンスが制限される可能性があります。使用率の高い各ファイルサーバーについて、最も使用率の高いボリュームをチェックし、アグリゲート内で最もアクティビティの多いボリュームを確認します。この手順の詳細については、「ボリュームの再調整」を参照してください。

ネットワークスループットに不均衡が生じているものの、ファイルサーバのディスクスループット、ファイルサーバのディスク IOPS、またはディスク IOPS のバランスに不均衡は生じていない

データは HA ペア間で均等に分散されているものの、クライアントの分散が不均衡です。ネットワークスループット使用率が他のサーバーよりも高いファイルサーバーについて、使用率が上位のクライアントを確認し、それらのクライアントからいずれかのボリュームをマウント解除します。その後、別の HA ペアの別のエンドポイントを使用してボリュームを再マウントすることで、クライアントの再調整を行います。この手順の詳細については、「クライアントの再調整」を参照してください。

ONTAP CLI および REST API リソースへの CloudWatch ディメンションのマッピング

第 2 世代のファイルシステムには、 FileServerまたは Aggregateディメンションの Amazon CloudWatch メトリクスがあります。不均衡の症状をより詳細に診断するには、これらのディメンション値を ONTAP CLI または REST API の特定のファイルサーバ (またはノード) とアグリゲートにマッピングする必要があります。

  • ファイルサーバの場合、各ファイルサーバの名前は ONTAP のファイルサーバ (またはノード) の名前 (例: FsxId01234567890abcdef-01) にマップされます。奇数番号のファイルサーバーは、ファイルシステムがセカンダリファイルサーバーにフェイルオーバーされていない限りトラフィックを処理する優先ファイルサーバーです。偶数番号のファイルサーバーは、パートナーが使用できない場合にのみトラフィックを処理するセカンダリファイルサーバーです。このためセカンダリファイルサーバーの使用率は、通常、優先ファイルサーバーよりも低くなります。

  • アグリゲートの場合、各アグリゲートの名前は ONTAP のアグリゲートにマップされます (例: aggr1)。HA ペアごとに 1 つの集計があります。つまり、集計aggr1は HA ペアのファイルサーバー FsxId01234567890abcdef-01 (アクティブなファイルサーバー) と FsxId01234567890abcdef-02 (セカンダリファイルサーバー) によって共有され、集計aggr2はファイルサーバーFsxId01234567890abcdef-03と によって共有FsxId01234567890abcdef-04されます。

ONTAP CLI を使用すると、すべてのアグリゲートとファイルサーバ間のマッピングを表示できます。

  1. ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」のNetApp ONTAP CLI の使用「」セクションに記載されているステップに従います。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. -fields node パラメータを指定して、storage aggregate show コマンドを使用します。

    ::> storage aggregate show -fields node aggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.

クライアントの再調整

HA ペアを追加した後、またはファイルサーバー間で I/O の不均衡 (特にネットワークスループット使用率) が発生している場合は、クライアントを再調整できます。HA ペアを追加した後にクライアントを再調整する場合は、 にスキップできますクライアントの再マウント。それ以外の場合は、まず、ワークロード I/O のバランスを再調整するために移動するトラフィックの多いクライアントを特定する必要があります。

ファイルサーバー間で I/O の不均衡が (特にネットワークスループット使用率に関して) 発生している場合、I/O クライアントの使用率の高さが原因であと考えられます。トラフィックの多いクライアントを特定するには、ONTAP CLI を使用します。

トラフィックの多いクライアントを特定する
  1. ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」のNetApp ONTAP CLI の使用「」セクションに記載されているステップに従います。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. トラフィックが上位にあるクライアントを表示するには、ONTAP CLI の statistics top client show コマンドを使用します。オプションで -node パラメータを指定すると、特定のファイルサーバの上位クライアントのみを表示できます。特定のファイルサーバーの不均衡を診断する場合は、(node_name をファイルサーバーの名前、例えば FsxId01234567890abcdef-01 に置き換えて) -node パラメーターを使用します。

    オプションで -interval パラメーターを追加し、各レポートが出力されるまでの時間を (秒単位で) 測定する間隔を指定できます。この間隔を (たとえば、最大 300 秒にまで) 増加すると、各ボリュームに向かうトラフィック量についての長期的なサンプルが得られます。デフォルト値は 5 (秒)です。

    ::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]

    出力では、上位のクライアントが IP アドレスとポート別に表示されます。

    *Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
クライアントの再マウント
  • クライアントを他の HA ペアに再調整できます。それを行うためには、クライアントからボリュームをマウント解除し、SVM の NFS/SMB エンドポイントの DNS 名を使用して (これにより、ランダムな HA ペアに対応するランダムなエンドポイントが返されます)、ボリュームを再マウントします。

    DNS 名は再利用することが推奨されますが、オプションで、特定のクライアントがマウントする HA ペアを明示的に選択することができます。クライアントを別のエンドポイントにマウントすることを保証するために、代わりに、トラフィックが多いファイルサーバーに対応するエンドポイント IP アドレスとは異なるエンドポイント IP アドレスを指定できます。このためには、次の コマンドを実行します。

    ::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node vserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.

    この statistics top client show コマンドの出力例を見ると、クライアント 172.17.236.53 は多くのトラフィックを FsxId01234567890abcdef-01 に送っています。network interface show コマンドの出力では、このアドレスが 172.31.15.89 であることがわかります。別のエンドポイントにマウントするには、他のいずれかのアドレスを選択します (この例における他のアドレスは、FsxId01234567890abcdef-03 に対応するアドレス 172.31.8.112 だけです)。

ボリュームの再調整

ボリュームまたはアグリゲート全体で I/O の不均衡が見られる場合は、ボリュームをリバランスすることで I/O トラフィックをボリューム間で再配分できます。

注記

アグリゲート間でストレージの使用率に不均衡が確認されている場合は、通常、高い使用率に I/O の不均衡が伴わない限りパフォーマンスに対する影響はありません。アグリゲート間でボリュームを移動してストレージ使用率のバランスを取ることもできますが、ボリュームの移動はパフォーマンスに影響がある場合にのみ行うことをお勧めします。移動を検討している各ボリュームで発生する I/O も考慮しないと、パフォーマンスに悪影響を及ぼす可能性があるためです。

  1. ファイルシステムの NetApp ONTAP CLI に SSH 接続するには、「Amazon FSx for NetApp ONTAP ユーザーガイド」のNetApp ONTAP CLI の使用「」セクションに記載されているステップに従います。

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. ONTAP CLI の statistics volume show コマンドを (以下の点を変更し) 使用して、特定のアグリゲートで最もトラフィックの多いボリュームを表示します。

    • aggregate_name は、アグリゲートの名前(例: aggr1)に置き換えます。

    • オプションで -interval パラメーターを追加し、各レポートが出力されるまでの時間を (秒単位で) 測定する間隔を指定できます。この間隔を (たとえば、最大 300 秒にまで) 増加すると、各ボリュームに向かうトラフィック量についての長期的なサンプルが得られます。デフォルト値は 5 (秒)です。

    ::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]

    選択した間隔によっては、データが表示されるまでに最大 5 分かかることがあります。このコマンドは、アグリゲートに送られているトラフィック量と共に、そのアグリゲート内のすべてのボリュームを表示します。

    *Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103

    ボリュームの統計情報は構成要素ごとに表示されます(例えば、vol1__0015 は FlexGroup vol1 の 15 番目の構成要素です)。出力例からわかるように、aggr1 の構成要素での使用率は、aggr2 の構成要素よりも高くなっています。アグリゲート間でトラフィックを均衡させるには、トラフィックがより均等に分散されるように、構成ボリュームをアグリゲート間で移動します。

  3. 新しい HA ペアを追加した場合は、既存のボリュームを新しいアグリゲートに移動する必要があります。詳細については、「アグリゲート間でのボリュームの移動」を参照してください。