手動定義元資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

手動定義元資料

資 AWS Glue 料目錄是儲存有關資料來源和資料集的中繼資料的中央儲存庫。雖然爬行者程式可以自動編目並填入支援資料來源的中繼資料,但在某些情況下,您可能需要在「資料目錄」中手動定義中繼資料:

  • 不支援的資料格式 — 如果您有爬行者程式不支援的資料來源,則需要在「資料目錄」中手動定義這些資料來源的中繼資料。

  • 自訂中繼資料需求 — 根據預先定義的規則和慣例 AWS Glue 編目程式 推斷中繼資料。如果您的特定中繼資料需求未涵蓋於 AWS Glue 編目程式 推斷的中繼資料中繼資料,您可以手動定義中繼資料以符合您的需求

  • 資料控管和標準化 — 在某些情況下,基於資料控管、合規性或安全性原因,您可能希望對中繼資料定義有更多控制權。手動定義中繼資料可讓您確保中繼資料符合組織的標準和原則。

  • future 資料擷取的預留位置 — 如果您有無法立即使用或無法存取的資料來源,您可以建立空的結構定義表格作為預留位置。資料來源可供使用之後,您可以在表格中填入實際資料,同時保留預先定義的結構。

若要手動定義中繼資料,您可以使用 AWS Glue 主控台、Lake Formation 主控台、 AWS Glue API 或 AWS Command Line Interface (AWS CLI)。您可以建立資料庫、表格和分割區,並指定中繼資料屬性,例如欄名稱、資料類型、說明和其他屬性。