워크로드 밸런싱 - ONTAP용 FSx

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

워크로드 밸런싱

여러 개의 고가용성 (HA) 쌍이 있는 파일 시스템이 있는 경우 처리량과 스토리지는 각 HA 쌍에 분산됩니다. FSx for ONTAP는 파일이 파일 시스템에 기록될 때 파일을 자동으로 밸런싱하지만 HA 쌍을 추가하면 워크로드 데이터와 I/O가 더 이상 밸런싱되지 않습니다. 또한 드문 경우이긴 하지만 파일 시스템의 기존 HA 쌍에서 워크로드 데이터 또는 I/O가 불균형하여 워크로드의 전체 성능에 영향을 미칠 수 있습니다. 워크로드가 불균형한 경우 각 파일 시스템의 HA 쌍 (및 이에 상응하는 파일 서버 및 애그리게이트, 즉 기본 스토리지 계층을 구성하는 스토리지 풀) 에 걸쳐 워크로드를 재조정할 수 있습니다.

기본 스토리지 사용률 균형

파일 시스템의 기본 스토리지 용량은 애그리게이트라고 하는 스토리지 풀의 각 HA 쌍에 균등하게 분배됩니다. 각 HA 쌍에는 애그리게이트가 하나씩 있습니다. 기본 스토리지 계층의 평균 사용률을 지속적으로 80% 이하로 유지하는 것이 좋습니다. 여러 HA 쌍이 있는 파일 시스템의 경우 모든 애그리게이트의 평균 사용률을 최대 80% 로 유지하는 것이 좋습니다.

사용률을 80% 로 유지하면 새로 들어오는 데이터를 위한 여유 공간이 확보되고 애그리게이트의 여유 공간이 일시적으로 필요할 수 있는 유지 관리 작업에 필요한 오버헤드가 정상적으로 유지됩니다.

애그리게이트의 균형이 맞지 않는 경우 파일 시스템의 기본 스토리지 용량을 늘리거나 (각 애그리게이트의 스토리지 용량을 적절히 늘림) 애그리게이트 간에 볼륨을 이동할 수 있습니다. 자세한 정보는 애그리게이트 간 볼륨 이동을 참조하세요.

파일 서버 및 디스크 성능 사용률 불균형

파일 시스템의 총 성능 용량 (예: 네트워크 처리량, 파일 서버-디스크 처리량 및 IOPS, 디스크 IOPS) 은 파일 시스템의 HA 쌍에 균등하게 분배됩니다. 모든 성능 제한의 평균 사용률을 지속적으로 50% 미만 (최대 80% 미만) 으로 유지하는 것이 좋습니다. 이는 모든 HA 쌍에 걸친 파일 시스템 파일 서버 리소스의 전체 사용률과 파일 서버별 사용률 모두에 해당됩니다.

파일 서버 성능 사용률이 불균형하고 워크로드가 불균형한 파일 서버의 사용률이 80% 를 초과하는 경우 ONTAP CLI 및 REST API를 사용하여 성능 불균형의 원인을 추가로 진단하고 해결할 수 있습니다. 다음은 가능한 불균형 지표와 추가 진단을 위한 다음 단계를 나열한 표입니다.

파일 시스템의 경우... 해당되는 조치

파일 서버 디스크 처리량 또는 파일 서버 디스크 IOPS의 불균형

HA 쌍의 하위 집합 (액세스하는 데이터의 양이 너무 많은 볼륨의 하위 집합) 에서 I/O 핫스팟이 발생할 수 있으며, 이 경우 HA 쌍의 하위 집합에서 병목 현상이 발생하여 워크로드의 전체 성능이 제한될 수 있습니다. 사용률이 높은 각 파일 서버의 사용률이 가장 높은 볼륨을 확인하여 애그리게이트 내에서 가장 활동이 많은 볼륨을 확인하십시오. 이 절차에 대한 자세한 정보는 볼륨 리밸런싱 단원을 참조하세요.

네트워크 처리량은 불균형하지만 파일 서버 디스크 처리량, 파일 서버 디스크 IOPS 또는 디스크 IOPS는 불균형하지 않습니다.

데이터는 HA 쌍에 고르게 분산되지만 클라이언트는 그렇지 않습니다. 다른 서버보다 네트워크 처리량 사용률이 높은 파일 서버의 경우 각 파일 서버의 상위 클라이언트를 확인한 다음 해당 클라이언트에서 볼륨을 마운트 해제하고 다른 HA 쌍의 다른 엔드포인트를 사용하여 다시 마운트하여 해당 클라이언트의 균형을 재조정합니다. 이 절차에 대한 자세한 정보는 리밸런싱 클라이언트 단원을 참조하세요.

ONTAP CLI 및 REST API 리소스에 CloudWatch 차원 매핑

2세대 파일 시스템에는 FileServer 또는 Aggregate 차원의 Amazon CloudWatch 메트릭이 있습니다. 불균형 사례를 추가로 진단하려면 이러한 차원 값을 ONTAP CLI 또는 REST API의 특정 파일 서버 (또는 노드) 및 애그리게이트에 매핑해야 합니다.

  • 파일 서버의 경우 각 파일 서버 이름은 ONTAP의 파일 서버 (또는 노드) 이름 (예:) 에 매핑됩니다. FsxId01234567890abcdef-01 홀수 파일 서버는 선호되는 파일 서버 (즉, 파일 시스템이 보조 파일 서버로 페일오버되지 않는 한 트래픽을 서비스함) 이고 짝수 번호 파일 서버는 보조 파일 서버입니다. 즉, 파트너를 사용할 수 없는 경우에만 트래픽을 처리하는 보조 파일 서버입니다. 이 때문에 보조 파일 서버의 사용률은 일반적으로 선호 파일 서버보다 낮습니다.

  • 애그리게이트의 경우 각 애그리게이트 이름은 ONTAP의 애그리게이트 (예:) 에 매핑됩니다. aggr1 모든 HA 쌍에는 애그리게이트가 하나씩 있습니다. 즉, aggr1 애그리게이트는 HA 쌍의 파일 서버 FsxId01234567890abcdef-01 (활성 파일 서버) 와 FsxId01234567890abcdef-02 (보조 파일 서버) 가 공유하고, 애그리게이트는 파일 서버 등에서 공유하는 aggr2 식입니다. FsxId01234567890abcdef-03 FsxId01234567890abcdef-04

ONTAP CLI를 사용하여 모든 애그리게이트와 파일 서버 간의 매핑을 볼 수 있습니다.

  1. 파일 시스템의 NetApp ONTAP CLI에 SSH로 연결하려면 ONTAP용 Amazon FSx 사용 NetApp ONTAP CLI 사용 설명서의 섹션에 설명된 단계를 따르십시오. NetApp

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 스토리지 애그리게이트 show 명령을 사용하여 파라미터를 지정합니다. -fields node

    ::> storage aggregate show -fields node aggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.

리밸런싱 클라이언트

HA 쌍을 추가한 후 또는 파일 서버 간에 I/O 불균형이 발생하는 경우 (특히 네트워크 처리량 사용률) 클라이언트를 재조정할 수 있습니다. HA 쌍을 추가한 후 클라이언트를 재조정하는 경우에는 으로 건너뛰어도 됩니다. 클라이언트 재탑재 그렇지 않으면 먼저 이동하려는 트래픽이 많은 클라이언트를 식별하여 워크로드 I/O를 재조정해야 합니다.

파일 서버 간에 I/O 불균형이 발생하는 경우 (특히 네트워크 처리량 사용률) 높은 I/O 클라이언트가 원인일 수 있습니다. 트래픽이 많은 클라이언트를 식별하려면 ONTAP CLI를 사용하십시오.

트래픽이 많은 클라이언트 식별
  1. 파일 시스템의 NetApp ONTAP CLI에 SSH로 연결하려면 ONTAP용 Amazon FSx 사용 NetApp ONTAP CLI 사용 설명서의 섹션에 설명된 단계를 따르십시오. NetApp

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 트래픽이 가장 많은 클라이언트를 보려면 통계 상위 클라이언트 show ONTAP CLI 명령을 사용하십시오. 선택적으로 -node 매개 변수를 지정하여 특정 파일 서버의 상위 클라이언트만 볼 수 있습니다. 특정 파일 서버의 불균형을 진단하려면 -node 매개 변수를 파일 서버의 이름 (예:) node_name 으로 대체하여 사용하십시오. FsxId01234567890abcdef-01

    각 보고서가 출력되기 전에 측정할 간격 (초) 을 제공하여 -interval 매개 변수를 추가할 수도 있습니다. 간격을 늘리면 (예: 최대 300초까지) 각 볼륨으로 유도되는 트래픽 양을 장기적으로 샘플링할 수 있습니다. 기본값은 5 (초) 입니다.

    ::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]

    출력에서 상위 클라이언트는 해당 IP 주소 및 포트별로 표시됩니다.

    *Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
클라이언트 재탑재
  • 클라이언트를 다른 HA 쌍으로 재조정할 수 있습니다. 이렇게 하려면 클라이언트에서 볼륨을 마운트 해제하고 SVM의 NFS/SMB 엔드포인트에 대한 DNS 이름을 사용하여 볼륨을 다시 마운트합니다. 그러면 임의의 HA 쌍에 해당하는 임의의 엔드포인트가 반환됩니다.

    DNS 이름을 다시 사용하는 것이 좋지만 해당 클라이언트가 마운트할 HA 쌍을 명시적으로 선택할 수도 있습니다. 클라이언트를 다른 엔드포인트에 마운트하도록 하려면 트래픽이 많은 파일 서버에 해당하는 주소와 다른 엔드포인트 IP 주소를 대신 지정할 수 있습니다. 다음 명령을 실행하여 이 작업을 수행할 수 있습니다.

    ::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node vserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.

    statistics top client show명령의 예제 출력에 따르면 172.17.236.53 클라이언트는 높은 트래픽을 유도하고 FsxId01234567890abcdef-01 있습니다. network interface show명령의 출력은 이 주소가 주소임을 나타냅니다172.31.15.89. 다른 엔드포인트에 마운트하려면 다른 주소를 선택합니다. 이 예에서는 에 해당하는 주소만 있습니다. 172.31.8.112 FsxId01234567890abcdef-03

볼륨 리밸런싱

볼륨 또는 애그리게이트 전체에서 I/O 불균형이 발생하는 경우 볼륨 전체에 I/O 트래픽을 재분배하기 위해 볼륨을 재조정할 수 있습니다.

참고

애그리게이트 전반에서 스토리지 사용률 불균형이 발생하는 경우 높은 사용률과 I/O 불균형이 결합되지 않는 한 일반적으로 성능에 미치는 영향은 없습니다. 애그리게이트 간에 볼륨을 이동하여 스토리지 사용률의 균형을 맞출 수 있지만, 이동하려는 각 볼륨에 대한 I/O를 고려하지 않으면 볼륨 이동이 성능에 부정적인 영향을 미칠 수 있으므로 성능에 영향을 미치는 경우에만 볼륨을 이동하는 것이 좋습니다.

  1. 파일 시스템의 NetApp ONTAP CLI에 SSH로 연결하려면 ONTAP용 Amazon FSx 사용 NetApp ONTAP CLI 사용 설명서의 섹션에 설명된 단계를 따르십시오. NetApp

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 통계 볼륨 show ONTAP CLI 명령을 사용하여 다음과 같이 변경된 특정 애그리게이트에서 가장 많은 트래픽 볼륨을 볼 수 있습니다.

    • aggregate_name을 애그리게이트 이름 (예:) 으로 대체합니다. aggr1

    • 각 보고서가 출력되기 전에 측정할 간격 (초) 을 입력하여 -interval 매개변수를 추가할 수도 있습니다. 간격을 늘리면 (예: 최대 300초까지) 각 볼륨으로 유도되는 트래픽 양을 장기적으로 샘플링할 수 있습니다. 기본값은 5 (초) 입니다.

    ::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]

    선택한 간격에 따라 데이터를 표시하는 데 최대 5분이 걸릴 수 있습니다. 이 명령은 애그리게이트의 모든 볼륨을 각 애그리게이트로 유도되는 트래픽 양과 함께 표시합니다.

    *Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103

    볼륨 통계는 구성 요소별로 표시됩니다 (예: 15번째 구성 요소). vol1__0015 FlexGroup vol1 예제 출력에서 의 구성 요소가 구성 요소보다 활용도가 더 aggr1 높다는 것을 알 수 있습니다. aggr2 애그리게이트 간 트래픽의 균형을 맞추기 위해 애그리게이트 간에 구성 볼륨을 이동하여 트래픽이 더 고르게 분산되도록 할 수 있습니다.

  3. 새 HA 쌍을 추가한 경우 기존 볼륨을 새 애그리게이트로 이동해야 합니다. 자세한 내용은 애그리게이트 간 볼륨 이동을(를) 참조하세요.