ステップ 2: DSBulk を使用してアップロード対象のデータを準備する

効率的な転送のためのソースデータの準備には、2 つのステップがあります。まず、データをランダム化します。2 番目のステップでは、データを分析して、適切な dsbulk パラメータ値と必要なテーブル設定を明確にします。

データをランダム化する

dsbulk コマンドは、CSV ファイルに表示される順序と同じ順序でデータの読み取りと書き込みを行います。dsbulk コマンドを使用してソースファイルを作成すると、データはキーソートされた順序で CSV に書き込まれます。内部的には、Amazon Keyspaces でパーティションキーを使用してデータが分割されます。Amazon Keyspaces には、同一のパーティションキーに対するロードバランスリクエストに役立つロジックが内蔵されていますが、順序をランダム化すると、データのロードが高速かつ効率的になります。これは、Amazon Keyspaces で異なるパーティションにデータが書き込まれたときに発生する組み込みのロードバランシングを利用できるためです。

パーティション間で書き込みを均等に分散させるには、ソースファイル内のデータをランダム化する必要があります。アプリケーションを書き込んでこれを実行することができます。また、Shuf などのオープンソースツールを使用することもできます。Shuf は、Linux ディストリビューション、macOS (コアユーティリティを homebrew にインストールする)、Windows (Windows Subsystem for Linux (WSL) を使用する) で無料で使用できます。このステップで列名を含むヘッダー行がシャッフルされないようにするには、追加のステップが 1 つ必要です。

ヘッダーを維持した状態でソースファイルをランダム化するには、次のコードを入力します。


tail -n +2 keyspaces_sample_table.csv | shuf -o keyspace.table.csv && (head -1 keyspaces_sample_table.csv && cat keyspace.table.csv ) > keyspace.table.csv1 && mv keyspace.table.csv1 keyspace.table.csv

Shuf により、keyspace.table.csv という新しい CSV ファイルにデータが書き換えられます。これで、不要になった keyspaces_sample_table.csv ファイルを削除できます。

データを分析する

データを分析して、平均行サイズと最大行サイズを決定します。

この作業を行う理由は次のとおりです。

転送されるデータの総量を見積もる場合に、平均行サイズが役立ちます。
データのアップロードに必要な書き込みキャパシティをプロビジョニングする際には、平均行サイズが必要になります。
各行のサイズが 1 MB 未満 (Amazon Keyspaces の行サイズの上限) であることを確認できます。

注記

このクォータは、パーティションサイズではなく、行サイズを指します。Apache Cassandra のパーティションとは異なり、Amazon Keyspaces のパーティションのサイズは事実上無制限です。パーティションキーとクラスタリング列には、メタデータ用の追加のストレージが必要です。このストレージは行の raw サイズに追加する必要があります。詳細については、「Amazon Keyspaces で行のサイズを推定する」を参照してください。

次のコードは、AWK を使用して CSV ファイルを分析し、行の平均サイズと最大サイズを出力します。


awk -F, 'BEGIN {samp=10000;max=-1;}{if(NR>1){len=length($0);t+=len;avg=t/NR;max=(len>max ? len : max)}}NR==samp{exit}END{printf("{lines: %d, average: %d bytes, max: %d bytes}\n",NR,avg,max);}' keyspace.table.csv

このコードを実行すると、次の出力が表示されます。


using 10,000 samples:
{lines: 10000, avg: 123 bytes, max: 225 bytes}

最大行サイズが 1 MB を超えないようにしてください。超えた場合は、行を分割するか、データを圧縮して、行サイズを 1 MB 未満にする必要があります。このチュートリアルの次のステップでは、平均行サイズを使用して、テーブルの書き込みキャパシティをプロビジョニングします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ステップ 1: ソースとターゲットを作成する

ステップ 3: テーブルのスループットキャパシティを設定する