ステップ 5: OpenSearch 接続を使用するジョブを作成する

ETL ジョブのロールを作成した後、AWS Glue Studio で Open Spark ElasticSearch の接続とコネクタを使用するジョブを作成できます。

ジョブが Amazon Virtual Private Cloud (Amazon VPC) で実行されている場合は、VPC が正しく設定されていることを確認してください。詳細については、「ETL ジョブの VPC を設定します」(ETL ジョブの VPC を設定します) を参照してください。

Elasticsearch Spark コネクタを使用するジョブを作成するには

AWS Glue Studio で コネクタ を選択します。
[Your connections] (接続) リストで、作成した接続を選択し、[Create job] を選択します。
ビジュアルジョブエディタで、[Data source node] (データソースノード) を選択します。右側の[Data source properties - Connector] (データソースのプロパティ- コネクタ) タブで、コネクタの追加情報を設定します。
1. [Add schema] (スキーマの追加) を選択し、データソースにデータセットのスキーマを入力します。接続には、データカタログに格納されたテーブルは使用されません。つまり、AWS Glue Studio はデータのスキーマを認識しません。このスキーマ情報は手動で指定する必要があります。スキーマエディタの使用方法については、「カスタム変換ノードでスキーマを編集する」を参照してください。
2. Connection options (接続オプション) を展開します。
3. [Add new option] (新しいオプションの追加) を選択し、AWS シークレットに入力されなかったコネクタに必要な情報を入力します。
  - es.nodes: https://<OpenSearch ドメインエンドポイント>
  - es.port: 443
  - path: test
  - es.nodes.wan.only.: true
  これらの接続オプションの詳細については、「https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html」を参照してください。
グラフにターゲットノードを追加します。

データターゲットは Amazon S3 にすることも、AWS Glue Data Catalog またはコネクタからの情報を使用して別の場所にデータを書き込むこともできます。例えば、データカタログテーブルを使用して Amazon RDS のデータベースに書き込むことも、コネクタをデータターゲットとして使用して、AWS Glue でネイティブにサポートされていないデータストアに書き込むこともできます。

データターゲットのコネクタを選択する場合は、そのコネクタ用に作成された接続を選択する必要があります。また、コネクタプロバイダで必要な場合は、コネクタに追加情報を提供するオプションを追加する必要があります。AWS シークレットの情報を含む接続を使用する場合は、接続オプションでユーザー名とパスワード認証を指定する必要はありません。
オプションで、AWS Glue マネージドデータ変換ノードの編集の説明の通り、追加のデータソースと 1 つ以上の変換ノードを追加します。
ステップ 3 からジョブのプロパティを変更するの説明の通りジョブプロパティを設定し、ジョブを保存します。

次のステップ

ステップ 6: ジョブを実行する

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ステップ 4: ETL ジョブの IAM ロールを設定する

ステップ 6: ジョブを実行する