最佳實務 - AWS 規範指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳實務

我們建議存取封存資料的下列最佳實務:

  • 對於大型封存資料集,我們建議在資料之上建立 AWS Glue 資料表,以便使用 Athena 和 Amazon Redshift 等查詢引擎進行讀取。Athena 和 Amazon Redshift 都提供查詢效能的水平擴展。他們也使用模型 pay-per-query,在一次性查詢案例中具有成本效益。此外,Amazon Redshift 的機罩下具有進階查詢加速器 (AQUA) 引擎,可加速讀取效能,無需額外費用。

  • 在 Amazon S3 中定期卸載的封存資料不應儲存為堆積傾印。相反地,它應該儲存為新的分割區。日期分割區會將資料分隔為日期維度 (例如 year=<value>/month=<value>/day=<value>)。這在兩種情況下非常有用:

    • 如果 Glue AWS 爬蟲程式建立 Glue AWS 資料表,則這些分割區會充當虛擬資料欄。這透過限制掃描到範圍查詢中的分割區的資料來增強讀取效能。

    • 當您僅將物件子集還原為 S3 標準時,這有助於 S3 Glacier 還原操作。

  • AWS 當儲存在 Amazon S3 中的封存資料實體分割時,Glue 爬蟲程式會顯示非常值。每次將資料卸載為新的字首分割區時,爬蟲程式只會掃描新的分割區,並更新該分割區的中繼資料。如果資料表的結構描述變更,這些變更會擷取在分割區層級中繼資料中。