本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS CodePipeline CI/CD 管道部署 AWS Glue 任務 AWS CodePipeline
由 Bruno Klein (AWS) 和 Luis Henrique Massao Yamada (AWS) 建立
Summary
注意: AWS CodeCommit 不再提供給新客戶。的現有客戶 AWS CodeCommit 可以繼續正常使用服務。進一步了解
此模式示範如何將 AWS CodeCommit 和 AWS CodePipeline 與 AWS Glue 整合,並在開發人員將其變更推送至遠端 AWS CodeCommit 儲存庫時,立即使用 AWS Lambda 啟動任務。
當開發人員將變更提交至擷取、轉換和載入 (ETL) 儲存庫,並將變更推送至 AWS CodeCommit 時,會叫用新的管道。管道會啟動 Lambda 函數,透過這些變更啟動 AWS Glue 任務。AWS Glue 任務會執行 ETL 任務。
此解決方案有助於企業、開發人員和資料工程師在遞交變更並推送至目標儲存庫後立即啟動任務的情況。它有助於實現更高層級的自動化和重現性,因此避免任務啟動和生命週期期間發生錯誤。
先決條件和限制
先決條件
限制
一旦 AWS Glue 任務成功啟動,管道就會完成。它不會等待任務完成。
附件中提供的程式碼僅供示範使用。
架構
目標技術堆疊
AWS Glue
AWS Lambda
AWS CodePipeline
AWS CodeCommit
目標架構

程序包含下列步驟:
開發人員或資料工程師會在 ETL 程式碼中進行修改、遞交變更,並將變更推送至 AWS CodeCommit。
推送會啟動管道。
管道會啟動 Lambda 函數,在儲存庫
codecommit:GetFile
上呼叫 ,並將檔案上傳至 Amazon Simple Storage Service (Amazon S3)。Lambda 函數會使用 ETL 程式碼啟動新的 AWS Glue 任務。
Lambda 函數會完成管道。
自動化和擴展
範例附件示範如何將 AWS Glue 與 AWS CodePipeline 整合。它提供一個基準範例,您可以自訂或擴展供自己使用。如需詳細資訊,請參閱 Epics 區段。
工具
AWS CodePipeline
– AWS CodePipeline 是一項全受管的持續交付 服務,可協助您自動化發行管道,以實現快速可靠的應用程式和基礎設施更新。 AWS CodeCommit
– AWS CodeCommit 是一種全受管的來源控制 服務,可託管安全的 Git 型儲存庫。 AWS Lambda
– AWS Lambda 是一種無伺服器運算服務,可讓您執行程式碼,而無需佈建或管理伺服器。 AWS Glue
– AWS Glue 是一種無伺服器資料整合服務,可讓您輕鬆探索、準備和結合資料,以進行分析、機器學習和應用程式開發。 Git 用戶端
– Git 提供 GUI 工具,或者您可以使用命令列或桌面工具從 GitHub 檢查所需的成品。 AWS CDK
– AWS CDK 是一種開放原始碼軟體開發架構,可協助您使用熟悉的程式設計語言來定義雲端應用程式資源。
史詩
任務 | 描述 | 所需的技能 |
---|---|---|
設定 AWS CLI。 | 將 AWS Command Line Interface (AWS CLI) 設定為目標,並使用您目前的 AWS 帳戶進行驗證。如需說明,請參閱 AWS CLI 文件。 | 開發人員、DevOps 工程師 |
解壓縮範例專案檔案。 | 從附件解壓縮檔案,以建立包含範例專案檔案的資料夾。 | 開發人員、DevOps 工程師 |
部署範例程式碼。 | 解壓縮檔案之後,請從解壓縮位置執行下列命令,以建立基準範例:
在最後一個命令之後,您可以監控管道和 AWS Glue 任務的狀態。 | 開發人員、DevOps 工程師 |
自訂程式碼。 | 根據您的業務需求自訂 etl.py 檔案的程式碼。您可以修改 ETL 程式碼、修改管道階段或擴展解決方案。 | 資料工程師 |
相關資源
附件
若要存取與本文件相關聯的其他內容,請解壓縮下列檔案: attachment.zip