샘플 데이터베이스 - Amazon Redshift

샘플 데이터베이스

Amazon Redshift 설명서에 나오는 예는 대부분 TICKIT이라는 샘플 데이터베이스를 사용합니다. 이 작은 크기의 데이터베이스는 팩트 테이블 2개와 차원 테이블 5개, 총 7개의 테이블로 구성되어 있습니다. Amazon Redshift 시작 안내서의 4단계: Amazon S3에서 Amazon Redshift로 데이터 로드 단계에 따라 TICKIT 데이터 세트를 로드할 수 있습니다.

이 샘플 데이터베이스를 적용하면 사용자가 스포츠 이벤트, 공연 및 콘서트 등을 위한 온라인 티켓을 사고 팔 수 있는 가상의 TICKIT 웹사이트에서 분석가가 판매 작업을 추적하는 데 효과적입니다. 특히 시간 경과에 따른 티켓 이동과 판매자의 성공률, 그리고 티켓이 가장 많이 팔리는 이벤트, 공연장 및 계절 등을 구분할 수 있습니다. 분석가는 이러한 정보를 사용하여 사이트를 자주 방문하는 구매자와 판매자 모두에게 신규 사용자를 유치하거나 광고 및 홍보 효과를 높이는 동기를 제공할 수 있습니다.

예를 들어 다음은 2008년에 판매된 티켓 수를 기준으로 San Diego의 상위 판매자 5명을 찾는 쿼리입니다.

select sellerid, username, (firstname ||' '|| lastname) as name, city, sum(qtysold) from sales, date, users where sales.sellerid = users.userid and sales.dateid = date.dateid and year = 2008 and city = 'San Diego' group by sellerid, username, name, city order by 5 desc limit 5; sellerid | username | name | city | sum ----------+----------+-------------------+-----------+----- 49977 | JJK84WTE | Julie Hanson | San Diego | 22 19750 | AAS23BDR | Charity Zimmerman | San Diego | 21 29069 | SVL81MEQ | Axel Grant | San Diego | 17 43632 | VAG08HKW | Griffin Dodson | San Diego | 16 36712 | RXT40MKU | Hiram Turner | San Diego | 14 (5 rows)

본 설명서의 예에서 사용되는 데이터베이스에는 작은 크기의 데이터 세트가 저장됩니다. 팩트 테이블 2개에는 각각 200,000개 미만의 행이 있고, 차원 테이블은 CATEGORY 테이블의 11개 행부터 USERS 테이블의 50,000개 행에 이르기까지 다양합니다.

특히 본 설명서의 데이터베이스 예는 다음과 같이 Amazon Redshift 테이블 설계의 주요 특성을 잘 드러내고 있습니다.

  • 데이터 분산

  • 데이터 정렬

  • 열 기반 압축