상이한 인스턴스 크기 방지 대량 로드의 재시작 방지 조건자가 많은 경우 장기 실행 트랜잭션 방지 쿼리 튜닝 로드 밸런싱 임시 인스턴스 사용 인스턴스 크기 조정 작업 중단 오류

Amazon Neptune 기본 운영 지침

다음은 Neptune으로 작업할 때 따라야 하는 기본 운영 지침입니다.

성능 및 사용 사례 요구 사항에 맞게 크기를 조정할 수 있도록 Neptune DB 인스턴스를 이해해야 합니다. Amazon Neptune DB 클러스터 및 인스턴스을(를) 참조하세요.
CPU 및 메모리 사용을 모니터링합니다. 이를 통해 필요한 쿼리 성능을 얻기 위해 CPU 또는 메모리 용량이 더 큰 DB 인스턴스 클래스로 마이그레이션할 때를 알 수 있습니다. Amazon CloudWatch에서 사용 패턴이 변경되거나 사용자가 배포 용량에 도달했을 때 알림을 받도록 설정할 수 있으므로 시스템 성능 및 가용성을 유지하는 데 도움이 될 수 있습니다. 자세한 내용은 인스턴스 모니터링 및 Neptune 모니터링 단원을 참조하십시오.

Neptune에는 자체 메모리 관리자가 있기 때문에 CPU 사용량이 많을 때도 메모리 사용량은 비교적 적게 보이는 것이 정상입니다. 쿼리 실행 중 메모리 부족 예외가 발생하는 것은 사용 가능 메모리를 늘려야 한다는 가장 확실한 신호입니다.
자동 백업을 활성화하고 백업 기간을 편리한 시간으로 설정하십시오.
DB 인스턴스의 장애 조치를 테스트하여 사용 사례 절차에 소요되는 시간을 파악하십시오. 이를 통해 DB 인스턴스에 액세스하는 애플리케이션이 장애 조치 후 자동으로 새 DB 인스턴스에 연결할 수 있도록 할 수 있습니다.
VPC 피어링과의 리전 간 연결로 인해 쿼리 응답 시간이 지연될 수 있으므로 가능하면 동일한 리전과 VPC에서 클라이언트와 Neptune 클러스터를 실행하십시오. 한 자릿수 밀리초 쿼리 응답의 경우 클라이언트와 Neptune 클러스터를 동일한 리전과 VPC에 유지해야 합니다.
읽기 전용 복제본 인스턴스를 생성할 때 크기는 최소한 기본 라이터 인스턴스와 같아야 합니다. 그래야 복제 지연 여부를 확인하고 복제본이 다시 시작되는 것을 방지할 수 있습니다. 한 클러스터에서 상이한 인스턴스 클래스 방지을(를) 참조하세요.
새 주요 엔진 버전으로 업그레이드하기 전에 해당 버전에서 애플리케이션을 테스트해야 합니다. 이를 위해서는 DB 클러스터를 복제하여 클론 클러스터가 새 엔진 버전을 실행하도록 한 다음, 클론에서 애플리케이션을 테스트하면 됩니다.
장애 조치를 용이하게 하기 위해 모든 인스턴스의 크기가 같은 것이 좋습니다.

주제

Amazon Neptune의 보안 모범 사례
한 클러스터에서 상이한 인스턴스 클래스 방지
대량 로드하는 동안 반복적인 재시작 방지
조건자 수가 많은 경우 OSGP 인덱스 활성화
장기 실행 트랜잭션 방지(가능한 경우)
Neptune 지표 사용 모범 사례
Neptune 쿼리 튜닝 모범 사례
읽기 전용 복제본에서 로드 밸런싱
더 큰 임시 인스턴스를 사용하여 더욱 빠르게 로딩
읽기 전용 복제본으로 장애 조치하여 라이터 인스턴스의 크기 조정
데이터 미리 가져오기 작업 중단 오류 후 업로드 다시 시도

한 클러스터에서 상이한 인스턴스 클래스 방지

DB 클러스터에 다른 클래스의 인스턴스가 있는 경우 시간이 지나면서 문제가 발생할 수 있습니다. 가장 일반적인 문제는 복제 지연으로 인해 소규모 리더 인스턴스가 반복적으로 재시작되는 주기가 발생할 수 있다는 것입니다. 라이터 DB 인스턴스보다 리더 노드의 DB 인스턴스 클래스 구성이 약한 경우 변경 볼륨이 너무 커서 리더가 따라잡을 수 없습니다.

중요

복제 지연으로 인한 반복적인 재시작을 방지하려면 모든 인스턴스가 동일한 인스턴스 클래스(크기)를 갖도록 DB 클러스터를 구성하면 됩니다.

Amazon CloudWatch의 ClusterReplicaLag 지표를 사용하여 라이터 인스턴스(기본)와 DB 클러스터의 리더 간 지연을 확인할 수 있습니다. 또한 이 VolumeWriteIOPs 지표를 통해 클러스터에서 복제 지연을 야기할 수 있는 쓰기 작업의 폭증을 감지할 수 있습니다.

대량 로드하는 동안 반복적인 재시작 방지

대량 로드 중에 복제 지연으로 인해 읽기 전용 복제본이 반복적으로 재시작되면 복제본이 DB 클러스터의 라이터 속도를 따라가지 못할 수 있습니다.

리더를 라이터보다 크게 확장하거나 대량 로드 중에 일시적으로 제거한 다음, 완료 후 다시 생성하세요.

조건자 수가 많은 경우 OSGP 인덱스 활성화

데이터 모델에 많은 수의 Distinct 조건자(대개의 경우에 1,000명 이상)가 포함된 경우 성능 저하 및 운영 비용 상승을 겪을 수 있습니다.

이 경우 OSGP 인덱스를 활성화하여 성능을 개선할 수 있습니다. OSGP 인덱스을(를) 참조하세요.

장기 실행 트랜잭션 방지(가능한 경우)

읽기 전용 또는 읽기-쓰기의 장기 실행 트랜잭션은 다음과 같은 종류의 예상치 못한 문제를 일으킬 수 있습니다.

동시 쓰기가 있는 리더 인스턴스나 라이터 인스턴스에서 장기간 실행되는 트랜잭션으로 인해 여러 버전의 데이터가 대량으로 누적될 수 있습니다. 이로 인해 결과의 상당 부분을 필터링하는 읽기 쿼리의 지연 시간이 길어질 수 있습니다.

몇 시간 동안 누적된 버전으로 인해 새 쓰기에 병목 현상이 발생하는 경우도 있습니다.

쓰기 횟수가 많은 장기 실행 읽기-쓰기 트랜잭션도 인스턴스 재시작 시 문제를 일으킬 수 있습니다. 유지 관리 이벤트 또는 충돌로 인해 인스턴스가 재시작되는 경우 커밋되지 않은 모든 쓰기가 롤백됩니다. 이러한 실행 취소 작업은 일반적으로 백그라운드에서 실행되며 인스턴스가 백업되는 것을 차단하지는 않지만, 롤백 중인 작업과 충돌하는 새 쓰기는 실패합니다.

예를 들어, 이전 실행에서 연결이 끊긴 후 동일한 쿼리를 다시 시도하면 인스턴스를 재시작할 때 실패할 수 있습니다.

실행 취소 작업에 필요한 시간은 관련된 변경 내용의 크기에 비례합니다.

Neptune 쿼리 튜닝 모범 사례

Neptune의 성능을 높이는 제일 좋은 방법 중 하나는 가장 많이 사용하는 쿼리와 리소스를 가장 많이 사용하는 쿼리를 조정하여 실행 비용을 낮추는 것입니다.

Gremlin 쿼리를 조정하는 방법에 대한 자세한 내용은 Gremlin 쿼리 힌트 및 Gremlin 쿼리 조정을 참조하세요. SPARQL 쿼리를 조정하는 방법에 대한 자세한 내용은 SPARQL 쿼리 힌트 단원을 참조하십시오.

읽기 전용 복제본에서 로드 밸런싱

리더 엔드포인트의 라운드 로빈 라우팅은 DNS 항목이 가리키는 호스트를 변경하여 작동합니다. WebSocket 연결은 오랜 기간 동안 계속 유지되기 때문에 클라이언트는 새 연결을 생성하고 DNS 레코드를 해결하여 새 읽기 복제본에 연결해야 합니다.

연속적인 요청에 대해 서로 다른 읽기 복제본을 가져오려면 클라이언트가 연결할 때마다 DNS 항목을 해결해야 합니다. 이 경우 연결을 닫고 리더 엔드포인트에 다시 연결해야 할 수 있습니다.

인스턴스 엔드포인트에 명시적으로 연결하여 읽기 복제본 간에 요청을 로드 밸런싱할 수 있습니다.

더 큰 임시 인스턴스를 사용하여 더욱 빠르게 로딩

인스턴스 크기가 클수록 로드 성능이 향상됩니다. 대형 인스턴스 유형을 사용하지 않고 로드 속도가 증가하기를 바란다면 더 큰 인스턴스를 사용하여 로드한 후 삭제할 수 있습니다.

참고

다음 절차는 새 클러스터에 대한 절차입니다. 기존 클러스터가 있다면 더 큰 새 인스턴스를 추가한 다음 기본 DB 인스턴스로 크기를 높일 수 있습니다.

더 큰 인스턴스 크기를 사용하여 데이터를 로드하려면

단일 r5.12xlarge 인스턴스로 클러스터를 만듭니다. 이 인스턴스는 기본 DB 인스턴스입니다.
같은 크기(r5.12xlarge)의 읽기 전용 복제본을 하나 이상 생성합니다.

읽기 전용 복제본을 더 작은 크기로 만들 수 있지만, 기본 인스턴스의 쓰기를 처리할 수 있을 만큼 크기가 크지 않으면 자주 다시 시작해야 할 수 있습니다. 이로 인한 가동 중지 때문에 성능이 크게 저하됩니다.
대량 로더 명령에 “parallelism” : “OVERSUBSCRIBE”를 포함하여 로딩에 사용 가능한 모든 CPU 리소스를 사용하도록 Neptune에 지시합니다(Neptune 로더 요청 파라미터 참조). 그러면 로드 작업은 I/O가 허용하는 한 빠르게 진행되며, 이 경우 일반적으로 60~70%의 CPU 리소스가 필요합니다.
Neptune 로더를 사용하여 데이터를 로드합니다. 로드 작업은 기본 DB 인스턴스에서 실행합니다.
데이터 로딩을 완료한 후에는 클러스터의 모든 인스턴스를 동일한 인스턴스 유형으로 축소하여 추가 요금이 부과되거나 재시작 문제가 반복되지 않도록 해야 합니다(상이한 인스턴스 크기 방지 참조).

읽기 전용 복제본으로 장애 조치하여 라이터 인스턴스의 크기 조정

라이터 인스턴스를 비롯한 DB 클러스터의 인스턴스 크기를 조정하는 가장 좋은 방법은 읽기 전용 복제본 인스턴스를 생성하거나 수정하여 원하는 크기로 만든 후 의도적으로 읽기 전용 복제본으로 장애 조치하는 것입니다. 애플리케이션에서 확인할 수 있는 가동 중지는 라이터의 IP 주소를 변경하는 데 필요한 시간일 뿐이며, 이는 약 3~5초입니다.

현재 라이터 인스턴스를 의도적으로 읽기 전용 복제본 인스턴스로 장애 조치하는 데 사용하는 Neptune 관리 API는 FailoverDBCluster입니다. Gremlin Java 클라이언트를 사용하는 경우 여기에 설명된 것처럼 장애 조치 후에 새 IP 주소를 가져오기 위해 새 클라이언트 객체를 생성해야 할 수 있습니다.

아래 설명과 같이 재시작 주기가 반복되지 않도록 모든 인스턴스를 같은 크기로 변경해야 합니다.

데이터 미리 가져오기 작업 중단 오류 후 업로드 다시 시도

간혹 대량 로더를 사용하여 데이터를 Neptune에 로드할 때 LOAD_FAILED 상태가 발생할 수 있으며, 상세 정보 요청에 대한 응답으로 다음과 같이 PARSING_ERROR 및 Data prefetch task interrupted 메시지가 보고됩니다.


"errorLogs" : [
  {
    "errorCode" : "PARSING_ERROR",
    "errorMessage" : "Data prefetch task interrupted: Data prefetch task for 11467 failed",
    "fileName" : "s3://amzn-s3-demo-bucket/some-source-file",
    "recordNum" : 0
  }
]

이 오류가 발생하면 대량 업로드 요청을 다시 시도하면 됩니다.

이 오류는 일반적으로 요청 또는 데이터로 인해 발생하지 않은 일시적 중단이 있었을 때 발생하며, 보통 대량 업로드 요청을 다시 실행하여 해결할 수 있습니다.

기본 설정인 "mode":"AUTO" 및 "failOnError":"TRUE"를 사용하는 경우, 로더는 이미 로드한 파일을 건너뛰고 중단이 발생했을 때 아직 로드하지 않은 파일 로드를 다시 시작합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모범 사례

보안