本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以編寫程式碼以從資料存放區讀取資料或將資料寫入資料存放區,以及將用於 AWS Glue Studio 任務的資料格式化。您可以為 Spark、Athena 和 JDBC 資料存放區建立連接器。發佈至 GitHub 的範本程式碼提供了您需要實作的基本介面的概述。
您將需要一個本機開發環境來建立您的連接器程式碼。您可以使用任何 IDE,甚至只是命令行編輯器來編寫連接器。開發環境的範例包括:
-
本機 Scala 環境搭配本機 AWS Glue ETL Maven 程式庫,如 AWS Glue 開發人員指南的在本機開發 Scala 中所述。
-
IntelliJ IDE,透過從 https://www.jetbrains.com/idea/
下載 IDE 取得。
開發 Spark 連接器
您可以使用 Spark DataSource API V2 (Spark 2.4) 建立 Spark 連接器來讀取資料。
建立自訂 Spark 連接器
請按照 AWS Glue GitHub 範例程式庫中的步驟來開發 Spark 連接器,網址為 https://github.com/aws-samples/aws-glue-samples/tree/master/GlueCustomConnectors/development/Spark/README.md
開發 Athena 連接器
您可以建立 Athena 連接器,以供 AWS Glue 和 AWS Glue Studio 用於查詢自訂資料來源。
建立自訂 Athena 連接器
請依照 AWS Glue GitHub 範例程式庫中的步驟來開發 Athena 連接器,網址為 https://github.com/aws-samples/aws-glue-samples/tree/master/GlueCustomConnectors/development/Athena
開發 JDBC 連接器
您可以建立使用 JDBC 存取資料存放區的連接器。
建立自訂 JDBC 連接器
-
在您的本機開發環境中安裝 AWS Glue Spark 執行時間程式庫。請參閱 AWS Glue GitHub 範例程式庫中的指示,網址為 https://github.com/aws-samples/aws-glue-samples/tree/master/GlueCustomConnectors/development/GlueSparkRuntime/README.md
。 -
實作負責從資料來源擷取資料的 JDBC 驅動程式。請參閱適用於 Java SE 8 的 Java 文件
。 在您的程式碼中建立一個入口點,供 AWS Glue Studio 用來找到您的連接器。Class name (類別名稱) 欄位應該是 JDBC 驅動程式的完整路徑。
-
使用
GlueContext
API 來透過連接器讀取資料。如有必要,使用者可以在 AWS Glue Studio 主控台中新增更多輸入選項以設定連到資料來源的連線。如需示範如何使用自訂 JDBC 連接器讀取和寫入 JDBC 資料庫的程式碼範例,請參閱 Custom and AWS Marketplace connectionType 值。
搭配 AWS Glue Studio 使用自訂連接器的範例
如需使用自訂連接器的範例,請參閱下列部落格:
-
Apache Hudi:使用 AWS Glue 自訂連接器寫入 Apache Hudi 資料表
-
Google BigQuery:使用 AWS Glue 自訂連接器將資料從 Google BigQuery 遷移至 Amazon S3
-
Snowflake (JDBC):使用 Snowflake 和 AWS Glue 執行資料轉換
-
SingleStore:使用 SingleStore 和 AWS Glue 建置快速 ETL
Salesforce: 搭配使用 CData JDBC 自訂連接器與 AWS Glue,將 Salesforce 資料擷取至 Amazon S3
- -
MongoDB:使用 Amazon DocumentDB (with MongoDB compatibility) 和 MongoDB 建置 AWS Glue Spark ETL 任務
-
Amazon Relational Database Service (Amazon RDS):為 Amazon RDS 帶來自己的 JDBC 驅動程式,以建置 AWS Glue Spark ETL 任務
開發 的AWS Glue連接器 AWS Marketplace
身為 AWS 合作夥伴,您可以建立自訂連接器,並將其上傳至 AWS Marketplace 以銷售給AWS Glue客戶。
開發連接器程式碼的程序與自訂連接器的程序相同,但是上傳和驗證連接器程式碼的程序比較詳細。請參閱 GitHub 網站上為 AWS Marketplace建立連接器