자습서: Apache Spark와 통합하여 데이터 가져오기 또는 내보내기

Apache Spark는 대규모 데이터 분석을 위한 오픈 소스 엔진입니다. Apache Spark를 사용하면 Amazon Keyspaces에 저장된 데이터에 대한 분석을 보다 효율적으로 수행할 수 있습니다. 또한 Amazon Keyspaces를 사용하여 Spark의 분석 데이터에 대한 일관된 한 자리 밀리초 단위 읽기 액세스 권한을 애플리케이션에 제공할 수 있습니다. 오픈 소스 Spark Cassandra 커넥터는 Amazon Keyspaces와 Spark 간의 데이터 읽기 및 쓰기를 간소화합니다.

Spark Cassandra 커넥터에 대한 Amazon Keyspaces의 지원은 완전관리형 서버리스 데이터베이스 서비스를 사용하여 Spark 기반 분석 파이프라인에서 Cassandra 워크로드 실행을 간소화합니다. Amazon Keyspaces를 사용하면 Spark가 테이블과 동일한 기본 인프라 리소스를 놓고 경쟁하는 것에 대해 걱정할 필요가 없습니다. Amazon Keyspaces 테이블은 애플리케이션 트래픽에 따라 자동으로 확장 및 축소됩니다.

다음 자습서는 Spark Cassandra 커넥터를 사용하여 Amazon Keyspaces에 데이터를 읽고 쓰는 데 필요한 단계와 모범 사례를 안내합니다. 이 자습서에서는 Spark Cassandra 커넥터를 사용하여 파일에서 데이터를 로드하고 Amazon Keyspaces 테이블에 데이터를 기록하여 Amazon Keyspaces로 데이터를 마이그레이션하는 방법을 보여 줍니다. 그런 다음 자습서에서는 Spark Cassandra 커넥터를 사용하여 Amazon Keyspaces에서 데이터를 다시 읽는 방법을 보여 줍니다. 이렇게 하면 Spark 기반 분석 파이프라인에서 Cassandra 워크로드를 실행할 수 있습니다.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

7단계: (선택 사항) 정리

사전 조건