4단계: Amazon Keyspaces에서 원본 데이터 및 대상 테이블 준비

이 단계에서는 샘플 데이터와 Amazon Keyspaces 테이블을 사용하여 소스 파일을 생성합니다.

소스 파일을 생성합니다. 다음 옵션 중 하나를 선택할 수 있습니다.
- 이 자습서에서는 이름 keyspaces_sample_table.csv가 있는 쉼표로 구분된 값(CSV) 파일을 데이터 마이그레이션의 원본 파일로 사용합니다. 제공된 샘플 파일에는 이름이 book_awards인 테이블에 대한 몇 개의 데이터 행이 포함되어 있습니다.
  1. 다음 아카이브 파일 samplemigration.zip에 포함된 샘플 CSV 파일(keyspaces_sample_table.csv)을 다운로드합니다. 아카이브의 압축을 풀고 keyspaces_sample_table.csv의 경로를 기록해 둡니다.
- 자체 CSV 파일을 따라 Amazon Keyspaces에 데이터를 쓰려면 데이터가 무작위로 지정되었는지 확인하십시오. 데이터베이스에서 직접 읽거나 플랫 파일로 내보내는 데이터는 일반적으로 파티션과 프라이머리 키를 기준으로 정렬됩니다. 정렬된 데이터를 Amazon Keyspaces로 가져오면 Amazon Keyspaces 파티션의 더 작은 세그먼트에 데이터가 기록되어 트래픽이 고르지 않게 분산될 수 있습니다. 이로 인해 성능이 저하되고 오류율이 높아질 수 있습니다.
  
  반대로 데이터를 무작위화하면 트래픽을 파티션 전체에 더 균등하게 분산하여 Amazon Keyspaces의 기본 제공 로드 밸런싱 기능을 활용할 수 있습니다. 데이터를 랜덤화하는 데 사용할 수 있는 다양한 도구가 있습니다. 오픈소스 도구인 Shuf를 사용하는 예제는 데이터 마이그레이션 자습서에서 2단계: DSBulk를 사용하여 업로드할 데이터 준비 섹션을 참조하세요. 다음은 데이터를 DataFrame으로 셔플하는 방법을 보여 주는 예제입니다.
```
import org.apache.spark.sql.functions.randval
shuffledDF = dataframe.orderBy(rand())
```
Amazon Keyspaces에서 대상 키스페이스 및 테이블을 생성합니다.
1. cqlsh를 사용하여 Amazon Keyspaces에 연결하고 다음 예제의 서비스 엔드포인트, 사용자 이름 및 암호를 사용자 고유의 값으로 바꿉니다.
```
cqlsh cassandra.us-east-2.amazonaws.com 9142 -u "111122223333" -p "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" --ssl
```
2. 다음 예제와 같이 이름 catalog를 사용하여 새 키스페이스를 생성합니다.
```
CREATE KEYSPACE catalog WITH REPLICATION = {'class': 'SingleRegionStrategy'};
```
3. 새 키스페이스가 사용 가능 상태가 되면 다음 코드를 사용하여 대상 테이블 book_awards를 생성합니다. 비동기 리소스 생성 및 리소스가 사용 가능한지 확인하는 방법에 대한 자세한 내용은 Amazon Keyspaces에서 키스페이스 생성 상태 확인 섹션을 참조하세요.
```
CREATE TABLE catalog.book_awards (
   year int,
   award text,
   rank int, 
   category text,
   book_title text,
   author text, 
   publisher text,
   PRIMARY KEY ((year, award), category, rank)
   );
```

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

3단계: 앱 구성 파일 생성

5단계: Amazon Keyspaces 데이터 쓰기 및 읽기