Amazon Keyspaces로 데이터를 대량 업로드하거나 마이그레이션하는 데 적합한 도구를 선택하는 방법 - Amazon Keyspaces(Apache Cassandra용)

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Keyspaces로 데이터를 대량 업로드하거나 마이그레이션하는 데 적합한 도구를 선택하는 방법

이 섹션에서는 Amazon Keyspaces로 데이터를 대량 업로드하거나 마이그레이션하는 데 사용할 수 있는 다양한 도구를 검토하고 필요에 따라 올바른 도구를 선택하는 방법을 배울 수 있습니다. 또한이 섹션에서는 Amazon Keyspaces로 데이터를 가져오는 방법을 보여주는 사용 가능한 step-by-step 자습서에 대한 개요와 사용 사례를 제공합니다.

Apache Cassandra에서 Amazon Keyspaces로 워크로드를 마이그레이션하는 데 사용할 수 있는 전략을 검토하려면 Apache Cassandra에서 Amazon Keyspaces로 마이그레이션하기 위한 마이그레이션 계획 생성 섹션을 참조하세요.

  • 마이그레이션 도구

    • Github에서 사용할 수 있는 Amazon Keyspaces(Apache Cassandra용)의 요금 계산기를 사용하면 기존 Apache Cassandra 워크로드를 기반으로 Amazon Keyspaces의 월별 비용을 추정할 수 있습니다. Cassandra nodetool 상태 출력의 지표와 Amazon Keyspaces의 의도된 서버리스 구성을 입력하여 두 솔루션 간의 직접 비용을 비교합니다. 이 계산기는 기존 Cassandra 배포와 비교하여 Amazon Keyspaces의 운영 비용에만 중점을 둡니다. 인프라 유지 관리, 운영 오버헤드 또는 Cassandra 지원 비용과 같은 총 소유 비용(TCO) 요소는 포함되지 않습니다.

    • Amazon Keyspaces 마이그레이션을 위한 ZDM 듀얼 쓰기 프록시 - Github에서 사용할 수 있는 ZDM 듀얼 쓰기 프록시는 Apache Cassandra에서 Amazon Keyspaces로의 제로 가동 중지 마이그레이션을 지원합니다.

    • CQLReplicator – CQLReplicator는 Github에서 사용할 수 있는 오픈 소스 유틸리티로, Apache Cassandra에서 Amazon Keyspaces로 데이터를 거의 실시간으로 마이그레이션하는 데 도움이 됩니다.

      자세한 내용은 CQLReplicator를 사용하여 데이터 마이그레이션 단원을 참조하십시오.

    • Amazon Managed Streaming for Apache Kafka를 사용하여 이중 쓰기를 사용하는 온라인 마이그레이션 프로세스를 구현하는 방법에 대한 자세한 내용은 Guidance for continuous data migration from Apache Cassandra to Amazon Keyspaces를 참조하세요.

    • 대규모 마이그레이션의 경우 추출, 전환, 적재(ETL) 도구를 사용하는 것이 좋습니다. AWS Glue 를 사용하여 데이터 변환 마이그레이션을 빠르고 효과적으로 수행할 수 있습니다. 자세한 내용은 오프라인 마이그레이션 프로세스: Apache Cassandra에서 Amazon Keyspaces로 단원을 참조하십시오.

    • Apache Cassandra Spark 커넥터를 사용하여 Amazon Keyspaces에 데이터를 쓰는 방법을 알아보려면 자습서: Apache Spark와 통합하여 데이터 가져오기 또는 내보내기 섹션을 참조하세요.

    • cqlsh COPY FROM 명령을 사용하여 Amazon Keyspaces로 데이터를 빠르게 로드합니다. cqlsh는 Apache Cassandra에 포함되어 있으며 작은 데이터 세트 또는 테스트 데이터를 로드하는 데 가장 적합합니다. 단계별 지침은 자습서: cqlsh를 사용하여 Amazon Keyspaces에 데이터 로드섹션을 참조하세요.

    • Apache Cassandra용 DataStax 벌크 로더를 사용하여 dsbulk 명령을 사용하여 Amazon Keyspaces에 데이터를 로드할 수도 있습니다. DSBulk는 cqlsh보다 더욱 강력한 가져오기 기능을 제공하며 GitHub 리포지토리에서 사용할 수 있습니다. 단계별 지침은 자습서: DSBulk를 사용하여 Amazon Keyspaces에 데이터 로드섹션을 참조하세요.

Amazon Keyspaces에 데이터를 업로드하기 위한 일반적인 고려 사항

  • 데이터 업로드를 더 작은 구성 요소로 나눕니다.

    원시 데이터 크기 측면에서 다음과 같은 마이그레이션 단위와 잠재적 공간을 고려합니다. 한 단계 이상의 단계에서 소량의 데이터를 업로드하면 마이그레이션을 단순화하는 데 도움이 될 수 있습니다.

    • 클러스터별 - 모든 Cassandra 데이터를 한 번에 마이그레이션합니다. 이 접근 방식은 소규모 클러스터의 경우 괜찮을 수 있습니다.

    • 키스페이스 또는 테이블별 - 마이그레이션을 키스페이스 또는 테이블 그룹으로 나눕니다. 이 접근 방식을 사용하면 각 워크로드의 요구 사항에 따라 단계적으로 데이터를 마이그레이션할 수 있습니다.

    • 데이터별 - 데이터 크기를 더 줄이려면 특정 사용자 그룹 또는 제품에 대한 데이터를 마이그레이션하는 것을 고려합니다.

  • 단순성을 기반으로 먼저 업로드할 데이터의 우선 순위를 정합니다.

    먼저 더 쉽게 마이그레이션할 수 있는 데이터가 있는지 고려합니다. 예를 들어 특정 시간대에 변경되지 않는 데이터, 야간 배치 작업의 데이터, 오프라인 시간 동안 사용하지 않은 데이터 또는 내부 앱의 데이터 등이 여기에 해당하는지 고려합니다.