Amazon Neptune 기본 운영 지침 - Amazon Neptune

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Neptune 기본 운영 지침

다음은 Neptune으로 작업할 때 따라야 하는 기본 운영 지침입니다.

  • 성능 및 사용 사례 요구 사항에 맞게 크기를 조정할 수 있도록 Neptune DB 인스턴스를 이해해야 합니다. Amazon Neptune DB 클러스터 및 인스턴스 섹션을 참조하세요.

  • CPU 및 메모리 사용을 모니터링합니다. 이를 통해 필요한 쿼리 성능을 얻기 위해 CPU 또는 메모리 용량이 더 큰 DB 인스턴스 클래스로 마이그레이션할 때를 알 수 있습니다. Amazon CloudWatch에서 사용 패턴이 변경되거나 사용자가 배포 용량에 도달했을 때 알림을 받도록 설정할 수 있으므로 시스템 성능 및 가용성을 유지하는 데 도움이 될 수 있습니다. 자세한 내용은 인스턴스 모니터링Neptune 모니터링 단원을 참조하십시오.

    Neptune에는 자체 메모리 관리자가 있기 때문에 CPU 사용량이 많을 때도 메모리 사용량은 비교적 적게 보이는 것이 정상입니다. 쿼리 실행 중 메모리 부족 예외가 발생하는 것은 사용 가능 메모리를 늘려야 한다는 가장 확실한 신호입니다.

  • 자동 백업을 활성화하고 백업 기간을 편리한 시간으로 설정하십시오.

  • DB 인스턴스의 장애 조치를 테스트하여 사용 사례 절차에 소요되는 시간을 파악하십시오. 이를 통해 DB 인스턴스에 액세스하는 애플리케이션이 장애 조치 후 자동으로 새 DB 인스턴스에 연결할 수 있도록 할 수 있습니다.

  • VPC 피어링과의 리전 간 연결로 인해 쿼리 응답 시간이 지연될 수 있으므로 가능하면 동일한 리전과 VPC에서 클라이언트와 Neptune 클러스터를 실행하십시오. 한 자릿수 밀리초 쿼리 응답의 경우 클라이언트와 Neptune 클러스터를 동일한 리전과 VPC에 유지해야 합니다.

  • 읽기 전용 복제본 인스턴스를 생성할 때 크기는 최소한 기본 라이터 인스턴스와 같아야 합니다. 그래야 복제 지연 여부를 확인하고 복제본이 다시 시작되는 것을 방지할 수 있습니다. 한 클러스터에서 상이한 인스턴스 클래스 방지 섹션을 참조하세요.

  • 새 주요 엔진 버전으로 업그레이드하기 전에 해당 버전에서 애플리케이션을 테스트해야 합니다. 이를 위해서는 DB 클러스터를 복제하여 클론 클러스터가 새 엔진 버전을 실행하도록 한 다음, 클론에서 애플리케이션을 테스트하면 됩니다.

  • 장애 조치를 용이하게 하기 위해 모든 인스턴스의 크기가 같은 것이 좋습니다.

Amazon Neptune의 보안 모범 사례

AWS Identity and Access Management(IAM) 계정을 사용하여 Neptune API 작업에 대한 액세스를 제어합니다. DB 인스턴스, 보안 그룹, 옵션 그룹 또는 파라미터 그룹 같은 Neptune 리소스를 생성, 수정 또는 삭제하는 작업 및 DB 인스턴스 백업 및 복원 등의 일반적인 관리 작업을 수행하는 작업을 제어합니다.

  • 가능하면 영구 자격 증명 대신 임시 보안 인증 정보를 사용하세요.

  • Amazon Relational Database Service(RDS) 리소스를 관리하는 각 사용자에게 개별 IAM 계정을 할당합니다. AWS 계정 루트 사용자를 사용하여 Neptune 리소스를 관리하지 않습니다. 자신을 포함한 모든 사람을 위한 IAM 사용자를 생성합니다.

  • 각 사용자에게 각자의 임무를 수행하는 데 필요한 최소 권한 집합을 부여합니다.

  • IAM 그룹을 사용해 여러 사용자에 대한 권한을 효과적으로 관리합니다.

  • IAM 자격 증명을 정기적으로 순환합니다.

IAM을 사용하여 Neptune 리소스에 액세스하는 방법에 대한 자세한 내용은 Amazon Neptune 보안을 참조하세요. IAM 작업에 대한 일반적인 정보는 IAM 사용 설명서AWS Identity and Access ManagementIAM 모범 사례를 참조하세요.

한 클러스터에서 상이한 인스턴스 클래스 방지

DB 클러스터에 다른 클래스의 인스턴스가 있는 경우 시간이 지나면서 문제가 발생할 수 있습니다. 가장 일반적인 문제는 복제 지연으로 인해 소규모 리더 인스턴스가 반복적으로 재시작되는 주기가 발생할 수 있다는 것입니다. 라이터 DB 인스턴스보다 리더 노드의 DB 인스턴스 클래스 구성이 약한 경우 변경 볼륨이 너무 커서 리더가 따라잡을 수 없습니다.

중요

복제 지연으로 인한 반복적인 재시작을 방지하려면 모든 인스턴스가 동일한 인스턴스 클래스(크기)를 갖도록 DB 클러스터를 구성하면 됩니다.

Amazon CloudWatch의 ClusterReplicaLag 지표를 사용하여 라이터 인스턴스(기본)와 DB 클러스터의 리더 간 지연을 확인할 수 있습니다. 또한 이 VolumeWriteIOPs 지표를 통해 클러스터에서 복제 지연을 야기할 수 있는 쓰기 작업의 폭증을 감지할 수 있습니다.

대량 로드하는 동안 반복적인 재시작 방지

대량 로드 중에 복제 지연으로 인해 읽기 전용 복제본이 반복적으로 재시작되면 복제본이 DB 클러스터의 라이터 속도를 따라가지 못할 수 있습니다.

리더를 라이터보다 크게 확장하거나 대량 로드 중에 일시적으로 제거한 다음, 완료 후 다시 생성하세요.

조건자 수가 많은 경우 OSGP 인덱스 활성화

데이터 모델에 많은 수의 Distinct 조건자(대개의 경우에 1,000명 이상)가 포함된 경우 성능 저하 및 운영 비용 상승을 겪을 수 있습니다.

이 경우 OSGP 인덱스를 활성화하여 성능을 개선할 수 있습니다. OSGP 인덱스 섹션을 참조하세요.

장기 실행 트랜잭션 방지(가능한 경우)

읽기 전용 또는 읽기-쓰기의 장기 실행 트랜잭션은 다음과 같은 종류의 예상치 못한 문제를 일으킬 수 있습니다.

동시 쓰기가 있는 리더 인스턴스나 라이터 인스턴스에서 장기간 실행되는 트랜잭션으로 인해 여러 버전의 데이터가 대량으로 누적될 수 있습니다. 이로 인해 결과의 상당 부분을 필터링하는 읽기 쿼리의 지연 시간이 길어질 수 있습니다.

몇 시간 동안 누적된 버전으로 인해 새 쓰기에 병목 현상이 발생하는 경우도 있습니다.

쓰기 횟수가 많은 장기 실행 읽기-쓰기 트랜잭션도 인스턴스 재시작 시 문제를 일으킬 수 있습니다. 유지 관리 이벤트 또는 충돌로 인해 인스턴스가 재시작되는 경우 커밋되지 않은 모든 쓰기가 롤백됩니다. 이러한 실행 취소 작업은 일반적으로 백그라운드에서 실행되며 인스턴스가 백업되는 것을 차단하지는 않지만, 롤백 중인 작업과 충돌하는 새 쓰기는 실패합니다.

예를 들어, 이전 실행에서 연결이 끊긴 후 동일한 쿼리를 다시 시도하면 인스턴스를 재시작할 때 실패할 수 있습니다.

실행 취소 작업에 필요한 시간은 관련된 변경 내용의 크기에 비례합니다.

Neptune 지표 사용 모범 사례

리소스 부족이나 기타 일반적인 병목 현상으로 인해 발생하는 성능 문제를 식별하기 위해 Neptune DB 클러스터에서 사용 가능한 지표를 모니터링할 수 있습니다.

다양한 기간 동안의 평균값, 최댓값, 최솟값에 대한 데이터를 모으려면 정기적으로 성능 지표를 모니터링합니다. 이렇게 하면 성능이 저하된 시점을 식별할 수 있습니다. 이 데이터를 사용하면 특정 지표 임계값에 도달했을 때 알림을 받을 수 있도록 해당 임계값에 대한 Amazon CloudWatch 경보를 설정할 수 있습니다.

새 DB 클러스터를 설정하고 일반적인 워크로드로 실행할 경우 다양한 간격(예: 1시간, 24시간, 1주, 2주)으로 모든 성능 지표의 평균값, 최댓값, 최솟값을 수집합니다. 이렇게 하면 무엇이 정상인지를 알 수 있습니다. 이렇게 하면 작업의 최고 피크와 최저 피크 시간을 비교할 수 있습니다. 그런 다음 이 정보를 사용하여 성능이 표준 수준 이하로 떨어진 때를 파악하고, 그에 따라 경보를 설정할 수 있습니다.

Neptune 지표를 보는 방법에 대한 자세한 내용은 아마존을 이용한 Neptune 모니터링 CloudWatch을 참조하세요.

가장 중요한 지표는 다음과 같습니다.

  • BufferCacheHitRatio - 버퍼 캐시에서 처리하는 요청 비율입니다. 캐시를 놓치면 쿼리 실행에 상당한 지연 시간이 추가됩니다. 캐시 적중률이 99.9% 미만이고 애플리케이션에 지연 시간이 문제가 되는 경우 메모리에 더 많은 데이터를 캐시하도록 인스턴스 유형을 업그레이드해 보세요.

  • CPU 사용률 - 사용된 컴퓨터 처리 용량의 백분율입니다. 쿼리의 성능 목표에 따라 CPU 소비량 값이 높아도 괜찮을 수 있습니다.

  • 여유 메모리 – DB 인스턴스에서 사용 가능한 RAM을 메가바이트 단위로 나타냅니다. Neptune에는 자체 메모리 관리자가 있으므로, 이 지표는 예상보다 낮을 수 있습니다. 쿼리에서 종종 메모리 부족 예외가 발생하는 것은 인스턴스 클래스를 RAM 용량이 큰 클래스로 업그레이드할지 고민해 봐야 한다는 확실한 신호입니다.

모니터링 탭 지표의 빨간색 선은 CPU 및 메모리 지표의 75%에 표시된 선입니다. 인스턴스 메모리 소비량이 이 선을 넘을 때가 많다면 워크로드를 확인하고 인스턴스를 업그레이드하여 쿼리 성능을 높이는 방법을 생각해 보십시오.

Neptune 쿼리 튜닝 모범 사례

Neptune의 성능을 높이는 제일 좋은 방법 중 하나는 가장 많이 사용하는 쿼리와 리소스를 가장 많이 사용하는 쿼리를 조정하여 실행 비용을 낮추는 것입니다.

Gremlin 쿼리를 조정하는 방법에 대한 자세한 내용은 Gremlin 쿼리 힌트Gremlin 쿼리 조정을 참조하세요. SPARQL 쿼리를 조정하는 방법에 대한 자세한 내용은 SPARQL 쿼리 힌트 단원을 참조하십시오.

읽기 전용 복제본에서 로드 밸런싱

리더 엔드포인트의 라운드 로빈 라우팅은 DNS 항목이 가리키는 호스트를 변경하여 작동합니다. WebSocket 연결은 오랜 기간 동안 계속 유지되기 때문에 클라이언트는 새 연결을 생성하고 DNS 레코드를 해결하여 새 읽기 복제본에 연결해야 합니다.

연속적인 요청에 대해 서로 다른 읽기 복제본을 가져오려면 클라이언트가 연결할 때마다 DNS 항목을 해결해야 합니다. 이 경우 연결을 닫고 리더 엔드포인트에 다시 연결해야 할 수 있습니다.

인스턴스 엔드포인트에 명시적으로 연결하여 읽기 복제본 간에 요청을 로드 밸런싱할 수 있습니다.

더 큰 임시 인스턴스를 사용하여 더욱 빠르게 로딩

인스턴스 크기가 클수록 로드 성능이 향상됩니다. 대형 인스턴스 유형을 사용하지 않고 로드 속도가 증가하기를 바란다면 더 큰 인스턴스를 사용하여 로드한 후 삭제할 수 있습니다.

참고

다음 절차는 새 클러스터에 대한 절차입니다. 기존 클러스터가 있다면 더 큰 새 인스턴스를 추가한 다음 기본 DB 인스턴스로 크기를 높일 수 있습니다.

더 큰 인스턴스 크기를 사용하여 데이터를 로드하려면
  1. 단일 r5.12xlarge 인스턴스로 클러스터를 만듭니다. 이 인스턴스는 기본 DB 인스턴스입니다.

  2. 같은 크기(r5.12xlarge)의 읽기 전용 복제본을 하나 이상 생성합니다.

    읽기 전용 복제본을 더 작은 크기로 만들 수 있지만, 기본 인스턴스의 쓰기를 처리할 수 있을 만큼 크기가 크지 않으면 자주 다시 시작해야 할 수 있습니다. 이로 인한 가동 중지 때문에 성능이 크게 저하됩니다.

  3. 대량 로더 명령에 “parallelism” : “OVERSUBSCRIBE”를 포함하여 로딩에 사용 가능한 모든 CPU 리소스를 사용하도록 Neptune에 지시합니다(Neptune 로더 요청 파라미터 참조). 그러면 로드 작업은 I/O가 허용하는 한 빠르게 진행되며, 이 경우 일반적으로 60~70%의 CPU 리소스가 필요합니다.

  4. Neptune 로더를 사용하여 데이터를 로드합니다. 로드 작업은 기본 DB 인스턴스에서 실행합니다.

  5. 데이터 로딩을 완료한 후에는 클러스터의 모든 인스턴스를 동일한 인스턴스 유형으로 축소하여 추가 요금이 부과되거나 재시작 문제가 반복되지 않도록 해야 합니다(상이한 인스턴스 크기 방지 참조).

읽기 전용 복제본으로 장애 조치하여 라이터 인스턴스의 크기 조정

라이터 인스턴스를 비롯한 DB 클러스터의 인스턴스 크기를 조정하는 가장 좋은 방법은 읽기 전용 복제본 인스턴스를 생성하거나 수정하여 원하는 크기로 만든 후 의도적으로 읽기 전용 복제본으로 장애 조치하는 것입니다. 애플리케이션에서 확인할 수 있는 가동 중지는 라이터의 IP 주소를 변경하는 데 필요한 시간일 뿐이며, 이는 약 3~5초입니다.

현재 라이터 인스턴스를 의도적으로 읽기 전용 복제본 인스턴스로 장애 조치하는 데 사용하는 Neptune 관리 API는 FailoverDBCluster입니다. Gremlin Java 클라이언트를 사용하는 경우 여기에 설명된 것처럼 장애 조치 후에 새 IP 주소를 가져오기 위해 새 클라이언트 객체를 생성해야 할 수 있습니다.

아래 설명과 같이 재시작 주기가 반복되지 않도록 모든 인스턴스를 같은 크기로 변경해야 합니다.

데이터 미리 가져오기 작업 중단 오류 후 업로드 다시 시도

간혹 대량 로더를 사용하여 데이터를 Neptune에 로드할 때 LOAD_FAILED 상태가 발생할 수 있으며, 상세 정보 요청에 대한 응답으로 다음과 같이 PARSING_ERRORData prefetch task interrupted 메시지가 보고됩니다.

"errorLogs" : [ { "errorCode" : "PARSING_ERROR", "errorMessage" : "Data prefetch task interrupted: Data prefetch task for 11467 failed", "fileName" : "s3://some-source-bucket/some-source-file", "recordNum" : 0 } ]

이 오류가 발생하면 대량 업로드 요청을 다시 시도하면 됩니다.

이 오류는 일반적으로 요청 또는 데이터로 인해 발생하지 않은 일시적 중단이 있었을 때 발생하며, 보통 대량 업로드 요청을 다시 실행하여 해결할 수 있습니다.

기본 설정인 "mode":"AUTO""failOnError":"TRUE"를 사용하는 경우, 로더는 이미 로드한 파일을 건너뛰고 중단이 발생했을 때 아직 로드하지 않은 파일 로드를 다시 시작합니다.