Amazon Redshift 데이터 웨어하우스의 아키텍처 구성 요소

Amazon Redshift 데이터 웨어하우스의 코어 아키텍처 구성 요소를 기본적으로 이해하는 것이 좋습니다. 이 지식은 최적의 성능을 위해 쿼리와 테이블을 설계하는 방법을 더 잘 이해하는 데 도움이 될 수 있습니다.

Amazon Redshift의 데이터 웨어하우스는 다음과 같은 코어 아키텍처 구성 요소로 구성됩니다.

클러스터 - 하나 이상의 컴퓨팅 노드로 구성된 클러스터는 Amazon Redshift 데이터 웨어하우스의 핵심 인프라 구성 요소입니다. 컴퓨팅 노드는 외부 애플리케이션에 투명하지만 클라이언트 애플리케이션은 리더 노드와만 직접 상호 작용합니다. 일반적인 클러스터에는 두 개 이상의 컴퓨팅 노드가 있습니다. 컴퓨팅 노드는 리더 노드를 통해 조정됩니다.
리더 노드 - 리더 노드는 클라이언트 프로그램 및 모든 컴퓨팅 노드에 대한 통신을 관리합니다. 또한 리더 노드는 쿼리가 클러스터에 제출될 때마다 쿼리 실행 계획을 준비합니다. 계획이 준비되면 리더 노드는 코드를 컴파일하고 컴파일된 코드를 컴퓨팅 노드에 배포한 다음 각 컴퓨팅 노드에 데이터 조각을 할당하여 쿼리 결과를 처리합니다.
컴퓨팅 노드 - 컴퓨팅 노드가 쿼리를 실행합니다. 리더 노드는 쿼리를 실행하기 위해 계획의 개별 요소에 대한 코드를 컴파일하고 개별 컴퓨팅 노드에 코드를 할당합니다. 그러면 컴퓨팅 노드가 컴파일 코드를 실행한 후 최종 집계를 위해 중간 결과를 리더 노드에 다시 보냅니다. 각 컴퓨팅 노드에는 전용 CPU, 메모리 및 연결된 디스크 스토리지가 있습니다. 그래도 워크로드가 증가하더라도 노드 수를 늘리거나, 노드 유형을 업그레이드하거나, 혹은 두 가지 방법 모두 사용하여 클러스터의 컴퓨팅 용량과 스토리지 용량을 늘릴 수 있습니다.
노드 조각 - 컴퓨팅 노드는 조각이라는 단위로 분할됩니다. 컴퓨팅 노드의 모든 조각에는 노드에 할당된 워크로드의 일부를 처리하는 노드 메모리 및 디스크 공간의 일부가 할당됩니다. 그러면 각 조각이 병렬 방식으로 실행되어 작업을 완료합니다. 데이터는 특정 테이블의 배포 스타일 및 배포 키를 기반으로 조각 간에 배포됩니다. 데이터를 균등하게 배포하면 Amazon Redshift가 슬라이스에 워크로드를 균등하게 할당하고 병렬 처리의 이점을 극대화할 수 있습니다. 컴퓨팅 노드당 조각 수는 노드 유형에 따라 결정됩니다. 자세한 내용은 Amazon Redshift 설명서의 Amazon Redshift의 클러스터 및 노드를 참조하세요.
대량 병렬 처리(MPP) - Amazon Redshift는 MPP 아키텍처를 사용하여 복잡한 쿼리와 방대한 양의 데이터까지도 빠르게 처리합니다. 여러 컴퓨팅 노드가 데이터의 일부에서 동일한 쿼리 코드를 실행하여 병렬 처리를 극대화합니다.
클라이언트 애플리케이션 - Amazon Redshift는 다양한 추출, 변환 및 로드(ETL), 비즈니스 인텔리전스(BI) 보고, 데이터 마이닝 및 분석 도구와 통합됩니다. 모든 클라이언트 애플리케이션은 리더 노드를 통해서만 클러스터와 통신합니다.

다음 다이어그램은 Amazon Redshift 데이터 웨어하우스의 아키텍처 구성 요소가 함께 작동하여 쿼리를 가속화하는 방법을 보여줍니다.

클라이언트에서 쿼리를 처리하는 Amazon Redshift 클러스터의 리더 노드 및 컴퓨팅 노드입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

소개

쿼리 처리