기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon을 사용하여 DynamoDB에서 테이블을 내보내고, 가져오고, 쿼리하고, 조인합니다. EMR
참고
Amazon EMR -DynamoDB 커넥터는 오픈 소스로 제공됩니다. GitHub 자세한 내용은 을 참조하십시오. https://github.com/awslabs/emr-dynamodb-connector
DynamoDB는 완벽하게 관리되는 데이터베이스 SQL 없는 서비스로, 원활한 확장성과 함께 빠르고 예측 가능한 성능을 제공합니다. 개발자는 데이터베이스 테이블을 만들고 해당 요청 트래픽 또는 스토리지를 제한 없이 확장할 수 있습니다. DynamoDB는 테이블의 데이터와 트래픽을 충분한 수의 서버로 자동 분산하여 고객이 지정한 요청 용량과 저장된 데이터 규모를 처리하면서도 일관되고 빠른 성능을 발휘합니다. EMRAmazon과 Hive를 사용하면 DynamoDB에 저장된 데이터와 같은 대량의 데이터를 빠르고 효율적으로 처리할 수 있습니다. DynamoDB에 대한 자세한 내용은 Amazon DynamoDB 개발자 안내서를 참조하세요.
Apache Hive는 HiveQL이라는 단순화된 쿼리 언어를 사용하여 맵 축소 클러스터를 쿼리하는 데 사용할 수 있는 소프트웨어 계층입니다. SQL 이 소프트웨어는 하둡 아키텍처를 기반으로 실행됩니다. Hive 및 HiveQL에 대한 자세한 내용은 HiveQL language manual
Amazon을 DynamoDB에 대한 연결이 포함된 사용자 지정 버전의 EMR Hive와 함께 사용하여 DynamoDB에 저장된 데이터에 대한 작업을 수행할 수 있습니다.
-
DynamoDB 데이터를 하둡 분산 파일 시스템 HDFS () 에 로드하고 이를 Amazon 클러스터의 입력으로 사용합니다. EMR
-
유사한 SQL 명령문 (HiveQL) 을 사용하여 라이브 DynamoDB 데이터를 쿼리합니다.
-
DynamoDB에 저장된 데이터 조인 및 내보내기 또는 조인된 데이터 쿼리.
-
DynamoDB에 저장된 데이터를 Amazon S3로 내보내기.
-
Amazon S3에서 DynamoDB로 데이터 가져오기.
다음 각 작업을 수행하려면 Amazon EMR 클러스터를 시작하고, DynamoDB의 데이터 위치를 지정하고, Hive 명령을 실행하여 DynamoDB의 데이터를 조작해야 합니다.
Amazon EMR 클러스터를 시작하는 방법에는 여러 가지가 있습니다. Amazon EMR 콘솔, 명령줄 인터페이스 (CLI) 를 사용하거나 또는 Amazon을 사용하여 클러스터를 프로그래밍할 수 EMR API 있습니다. AWS SDK 그 밖에 Hive 클러스터를 대화식으로 실행할지, 아니면 스크립트에서 실행할지 선택할 수도 있습니다. 이 단원에서는 Amazon EMR 콘솔 및 에서 대화형 Hive 클러스터를 시작하는 방법을 보여줍니다. CLI
대화식 Hive 사용은 쿼리 성능을 테스트하고 애플리케이션을 조정하는 데 효과적인 방법입니다. 정기적으로 실행되는 Hive 명령 세트를 설정한 후에는 Amazon에서 자동으로 실행할 EMR 수 있는 Hive 스크립트를 생성하는 것이 좋습니다.
주의
DynamoDB 테이블에서의 Amazon EMR 읽기 또는 쓰기 작업은 설정된 프로비저닝 처리량을 기준으로 계산되므로 프로비저닝된 처리량 예외의 빈도가 증가할 수 있습니다. 대규모 요청의 경우 Amazon은 지수 백오프를 통한 재시도를 EMR 구현하여 DynamoDB 테이블의 요청 로드를 관리합니다. Amazon EMR 작업을 다른 트래픽과 동시에 실행하면 할당된 프로비저닝 처리량 수준을 초과할 수 있습니다. Amazon에서 ThrottleRequests메트릭을 확인하여 이를 모니터링할 수 CloudWatch 있습니다. 요청 로드가 너무 높으면 클러스터를 다시 시작하고 읽기 비율 설정 or를 더 낮은 값으로 쓰기 비율 설정 설정하여 Amazon 작업을 제한할 수 있습니다. EMR DynamoDB 처리량 설정에 대한 자세한 내용은 프로비저닝된 처리량을 참조하세요.
테이블이 온디맨드 모드로 구성된 경우 내보내기 또는 가져오기 작업을 실행하기 전에 테이블을 프로비저닝된 모드로 다시 변경해야 합니다. 파이프라인이 D에서 사용할 리소스를 계산하려면 처리량 비율이 필요합니다. ynamoDBtable 온디맨드 모드는 프로비저닝된 처리량을 제거합니다. 처리 용량을 프로비저닝하려면 Amazon CloudWatch Events 지표를 사용하여 테이블에서 사용한 총 처리량을 평가할 수 있습니다.