AWS Glue:運作方式 - AWS 連接詞

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue:運作方式

AWS Glue 使用其他 AWS 服務來協調 ETL (擷取、轉換和載入) 工作,以建立資料倉儲和資料湖,並產生輸出串流。 AWS Glue呼叫作API業以轉換資料、建立執行時期記錄、儲存工作邏輯,以及建立通知以協助您監視工作執行。主AWS Glue控台會將這些服務連接到受管理的應用程式,因此您可以專注於建立和監控ETL工作。主控台會代表您執行管理與任務開發的操作。您可向 AWS Glue 提供登入資料和其他屬性,以存取資料來源和寫入資料目標。

AWS Glue 會負責佈建和管理執行任務負載所需的資源。您不需要為ETL工具創建基礎結構,因為AWS Glue它是為您服務的。需要資源時,為了減少啟動時間,AWS Glue 會從其執行個體暖集區中使用一個執行個體來執行您的任務負載。

有了 AWS Glue,您就可以使用資料目錄中的資料表定義來建立任務。任務由指令碼組成,其中包含執行轉換的程式設計邏輯。您可使用觸發,以排程或指定事件的結果啟動任務。您可決定目標資料存放的位置,以及將何種來源資料填入目標。AWS Glue 會根據您的輸入,產生將資料從來源轉換至目標所需的程式碼。您也可以在AWS Glue主控台中提供指令碼或API處理資料。

資料來源和目的地

AWS Glue for Spark 允許您從多個系統和資料庫​讀取和寫入資料,包括:

  • Amazon S3

  • Amazon DynamoDB

  • Amazon Redshift

  • Amazon Relational Database Service(AmazonRDS)

  • 第三方JDBC可存取資料庫

  • MongoDB 和 Amazon DocumentDB (with MongoDB compatibility)

  • 其他 Marketplace 連接器和 Apache Spark 外掛程式

資料串流

AWS Glue for Spark 可串流下列系統中的資料:

  • Amazon Kinesis Data Streams

  • Apache Kafka

AWS Glue 可在多個區 AWS 域使用。如需詳細資訊,請參閱 AWS 中的 Amazon Web Services 一般參考區域與端點。

無伺服器ETL工作隔離執行

AWS Glue使用您選擇的引擎、Spark 或 Ray,在無伺服器環境中執行ETL工作。 AWS Glue在它自己的服務帳戶中佈建和管理的虛擬資源上執行這些工作。

AWS Glue 旨在執行以下項目:

  • 區域客戶資料。

  • 保護客戶傳輸中和靜態的資料。

  • 只有在回應客戶要求、使用臨時、縮短的憑證,或在客戶同意的情況下,才能存取客戶資IAM料。

在佈建ETL工作期間,您可以在虛擬私有雲 (VPC) 中提供輸入資料來源和輸出資料目標。此外,您還提供存取資料來源和目標所需的IAM角色、ID、子網路 ID 和安全性群組。VPC針對每個元組 (客戶帳戶識別碼、IAM角色、子網路識別碼和安全性群組),AWS Glue建立在網路和管理層級與AWS Glue服務帳戶內所有其他環境隔離的新環境。

AWS Glue 會使用私有 IP 地址在您的子網路中建立彈性網路界面。任務會使用這些彈性網路介面存取您的資料來源和資料目標。工作執行環境內的流量受到您VPC和網路原則的控制,但有一個例外:對AWS Glue程式庫進出的呼叫可AWS GlueAPI透過 AWS GlueVPC. 所有AWS GlueAPI呼叫都會記錄下來;因此,資料擁有者可以透過啟用來稽核API存取 AWS CloudTrail,以便將稽核記錄傳送至您的帳戶。

AWS Glue執行ETL工作的受管理環境會受到相同的安全性做法保護,接著是其他 AWS 服務。如需實務和共同安全性責任的概觀,請參閱AWS 安全性程序簡介白皮書。