ステップ 5: OpenSearch 接続を使用するジョブを作成する - AWS Glue Studio

ステップ 5: OpenSearch 接続を使用するジョブを作成する

ETL ジョブのロールを作成した後、AWS Glue Studio で Open Spark ElasticSearch の接続とコネクタを使用するジョブを作成できます。

ジョブが Amazon Virtual Private Cloud (Amazon VPC) で実行されている場合は、VPC が正しく設定されていることを確認してください。詳細については、「ETL ジョブの VPC を設定します」を参照してください。

Elasticsearch Spark コネクタを使用するジョブを作成するには
  1. AWS Glue Studio で コネクタ を選択します。

  2. [Your connections] (接続) リストで、作成した接続を選択し、[Create job] を選択します。

  3. ビジュアルジョブエディタで、[Data source node] (データソースノード) を選択します。右側の[Data source properties - Connector] (データソースのプロパティ- コネクタ) タブで、コネクタの追加情報を設定します。

    1. [Add schema] (スキーマの追加) を選択し、データソースにデータセットのスキーマを入力します。接続には、Data Catalog に格納されたテーブルは使用されません。つまり、AWS Glue Studio はデータのスキーマを認識しません。このスキーマ情報は手動で指定する必要があります。スキーマエディタの使用方法については、「カスタム変換ノードでスキーマを編集する」を参照してください。

    2. Connection options (接続オプション) を展開します。

    3. [Add new option] (新しいオプションの追加) を選択し、AWS シークレットに入力されなかったコネクタに必要な情報を入力します。

      • es.nodes: https://<OpenSearch ドメインエンドポイント>

      • es.port: 443

      • path: test

      • es.nodes.wan.only.: true

      
        スクリーンショットは、ジョブグラフ(選択済み)のデータソースノードを示しています。右側のパネルの [Data source properties] (データソースプロパティ) タブが選択されています。接続フィールドの値は MyESConn です。[Connection Options] (接続オプション) の下に、追加オプションが追加されています。キーと値のペアは、(es.nodes、https://my-elasticsearch-endpo...)、(es.port, 443)、(path, test)、(es.nodes.wan.only, true) です。

      これらの接続オプションの詳細については、「https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html」を参照してください。

  4. ジョブ図にノードを追加するデータターゲットノードの編集 の説明の通り、ターゲットノードをグラフに追加します。 

    データターゲットは Amazon S3 にすることも、AWS Glue Data Catalog またはコネクタからの情報を使用して別の場所にデータを書き込むこともできます。例えば、データカタログテーブルを使用して Amazon RDS のデータベースに書き込むことも、コネクタをデータターゲットとして使用して、AWS Glue でネイティブにサポートされていないデータストアに書き込むこともできます。

    
      スクリーンショットは、ジョブグラフの 2 つのノード、結合変換ノードと ElasticSearch コネクタ(選択済み)のデータターゲットノードを示しています。右側のパネルの [Node properties] (ノードのプロパティ) タブが選択されています。表示される値は、名前-「ElasticSearch Spartk コネクタ」、ノードタイプ - ElasticSearch Spark コネクタです。ノードタイプを選択するためのドロップダウンリストが表示され、利用可能なデータターゲットのリストが表示されます。これには、S3、Data Catalog、AWS Glue Connector for Google BigQuery、Apache Hudi コネクタ、ElasticSearch Spark コネクタ(選択済み)が含まれます。

    データターゲットのコネクタを選択する場合は、そのコネクタ用に作成された接続を選択する必要があります。また、コネクタプロバイダで必要な場合は、コネクタに追加情報を提供するオプションを追加する必要があります。AWS シークレットの情報を含む接続を使用する場合は、接続オプションでユーザー名とパスワード認証を指定する必要はありません。

    
      このスクリーンショットは、ジョブグラフの 4 つのノード、ElasticSearch ソースノード、Data Catalog ソースノード、結合変換ノード、および ElasticSearch Data ターゲットノード (選択済み) を示しています。右側のパネルの [Data target properties] (データターゲットプロパティ) タブが選択されています。接続フィールドの値は MyESConn です。[Connection] (接続) オプションの見出しの下に、追加のオプションが追加されました。キーと値のペアは、 (es.net.http.auth.user, MyUser)、(path, es_write_loc)、(es.nodes.wan.only, true)、(es.nodes, https://search-glue-etl-job-vtr...)、(es.net.http.auth.pass, HiddenPassword)、(es.port, 443)です。
  5. オプションで、データ変換ノードの編集 の説明の通り、追加のデータソースと 1 つ以上の変換ノードを追加します。

  6. ステップ 3 から ジョブのプロパティを変更する の説明の通りジョブプロパティを設定し、ジョブを保存します。

次のステップ

ステップ 6: ジョブを実行する