步驟 5:建立使用 OpenSearch 連線的任務 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

步驟 5:建立使用 OpenSearch 連線的任務

為您的 ETL 任務建立角色後,您可以在 AWS Glue Studio 中建立任務,來使用 Open Spark ElasticSearch 的連線和連接器。

如果您的任務在 Amazon Virtual Private Cloud (Amazon VPC) 內執行,請確保 VPC 設定正確。如需更多詳細資訊,請參閱為您的 ETL 任務設定 VPC

建立使用 Elasticsearch Spark Connector 的任務
  1. 在 AWS Glue Studio 中,選擇 Connectors (連接器)。

  2. Your connections (您的連線) 清單中,選取您剛才建立的連線,然後選擇 Create job (建立任務)

  3. 在視覺化任務編輯器中,選擇 [資料來源] 節點。在右側,於 Data source properties - Connector (資料來源屬性 - 連接器) 索引標籤上,設定連接器的其他資訊。

    1. 選擇 Add schema (新增結構描述),然後在資料來源中輸入資料集的結構描述。連線不會使用存放在 Data Catalog 中的資料表,這表示 AWS Glue Studio 不知道資料的結構描述。您必須手動提供此結構描述資訊。如需如何使用結構描述編輯器的指示,請參閱編輯自訂轉換節點的結構描述

    2. 展開 Connection options (連線選項)

    3. 選擇 Add new option (新增選項),然後輸入未在 AWS 秘密中輸入的連接器所需資訊:

      • es.nodes:https://<OpenSearch 網域端點>

      • es.port:443

      • path:test

      • es.nodes.wan.only: true

      如需這些連線選項的說明,請參閱:https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

  4. 將目標節點新增至圖形。

    您的資料目標可以是 Amazon S3,也可以使用來自 AWS Glue Data Catalog 或連接器的資訊將資料寫入不同位置。例如,您可以使用 Data Catalog 資料表來寫入 Amazon RDS 中的資料庫,或者您可以使用連接器做為資料目標來寫入 AWS Glue 原生不支援的資料存放區。

    如果您為資料目標選擇連接器,則必須選擇為該連接器建立的連線。此外,如果連接器提供者要求,您必須新增選項,以提供其他資訊給連接器。如果您使用的連線包含 AWS 秘密的資訊,則您不需要在連線選項中提供使用者名稱和密碼驗證。

  5. 可以選擇新增其他資料來源和一或多個轉換節點,如編輯 AWS Glue 受管資料轉換節點中所述。

  6. 修改任務屬性所述設定任務屬性,從步驟 3 開始,然後儲存任務。

下一步驟

步驟 6:執行任務