在 Amazon 數據 Firehose 件中分區流數據 - Amazon 數據 Firehose

將亞馬遜資料 Firehose 串流交付到 Amazon S3 中的 Apache 冰山表格已處於預覽狀態,且可能會有所變更。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon 數據 Firehose 件中分區流數據

動態磁碟分割可讓您使用資料中的金鑰 (例如,customer_idtransaction_id) 持續分割 Firehose 中的串流資料,然後將這些金鑰分組的資料交付到對應的 Amazon Simple Storage Service (Amazon S3) 前置詞。這可讓您使用各種服務 (例如 Amazon 雅典娜、Amazon、亞馬遜 Amazon Redshift Spectrum 和亞馬遜) 對 Amazon S3 中的串流資料執行高效能且具有成本效益的分析。EMR QuickSight此外,在需要額外處理的使用案例中, AWS Glue 可以在動態分區的串流資料交付到 Amazon S3 之後執行更複雜的擷取、轉換和載入 (ETL) 任務。

分割資料可最大限度地減少掃描的資料量、最佳化性能,並降低 Amazon S3 上的分析查詢成本。它還可以增加對資料的精細存取。傳統上使用 Firehose 串流來擷取資料並將其載入 Amazon S3。若要分割 Amazon S3 分析的串流資料集,您需要在 Amazon S3 儲存貯體之間執行分割應用程式,然後才能將資料提供給分析,這可能會變得複雜或昂貴。

透過動態分割,Firehose 會使用動態或靜態定義的資料金鑰持續分組傳輸中的資料,並依金鑰將資料交付至個別的 Amazon S3 前置詞。這減少了幾 time-to-insight 分鐘或幾小時。它還可以降低成本並簡化架構。