Amazon Data Firehose のストリーミングデータのパーティショニング
動的パーティショニングを使用すると、データ内のキーを使用して (例えば、customer_id
または transaction_id
) Firehose でストリーミングデータを継続的にパーティショニングし、これらのキーでグループ化されたデータを、対応する Amazon Simple Storage Service (Amazon S3) プレフィックスに配信できます。これにより、Amazon Athena、Amazon EMR、Amazon Redshift Spectrum、Amazon QuickSight などのさまざまなサービスを使用して、Amazon S3 のストリーミングデータに対して高性能でコスト効率の高い分析を簡単に実行できるようになります。また、AWS Glue は、追加の処理が必要なユースケースで、動的にパーティショニングされたストリーミングデータを Amazon S3 に配信した後、より高度な抽出、変換、ロード (ETL) ジョブを実行できます。
データをパーティショニングすることで、スキャンされるデータ量が最小限に抑えられ、パフォーマンスが最適化され、Amazon S3 での分析クエリのコストが削減されます。また、データへのきめ細かいアクセスも向上します。Firehose ストリームは、データをキャプチャして Amazon S3 にロードするために従来より使用されています。Amazon S3 ベースの分析用にストリーミングデータセットをパーティショニングするには、データを分析に使用できるようにする前に、Amazon S3 バケット間でパーティショニングアプリケーションを実行する必要がありますが、これは複雑になるか、費用がかかる場合があります。
動的パーティショニングでは、Firehose は、動的または静的に定義されたデータキーを使用して送信中のデータを継続的にグループ化し、キーごとに個々の Amazon S3 プレフィックスにデータを配信します。これにより、洞察に要する時間が数分または数時間短縮されます。また、コストを削減し、アーキテクチャを簡素化します。