列形式の使用によるクエリパフォーマンスの向上 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

列形式の使用によるクエリパフォーマンスの向上

Spark は、、、CSV などApache ParquetOptimized Row Columnar (ORC)、さまざまな入力ファイル形式を使用できます。ただし、 は 内で最適にParquet動作しますSpark SQL。ランタイムの高速化、スキャンスループットの向上、ディスク I/O の削減、運用コストの削減を実現します。 は、最小/最大統計などのプッシュダウンフィルターでParquetファイル統計データを使用して、役に立たないデータを自動的にフィルタリングSparkできます。一方、parquet Spark ベクトル化されたリーダーを有効にしてParquetファイルをバッチで読み取ることができます。Spark SQL を使用してデータを処理している場合は、可能であればParquetファイル形式を使用することをお勧めします。