Fase 5: creazione di un processo che utilizza la connessione OpenSearch - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Fase 5: creazione di un processo che utilizza la connessione OpenSearch

Dopo aver creato un ruolo per il tuo processo ETL, puoi creare un processo in AWS Glue Studio che utilizzi la connessione e il connettore per Open Spark ElasticSearch.

Se il processo viene eseguito all'interno di un Amazon Virtual Private Cloud (Amazon VPC), verifica che questo sia configurato correttamente. Per ulteriori informazioni, consulta Configurazione di un VPC per il tuo processo ETL.

Per creare un processo che utilizza il connettore Spark Elasticsearch
  1. In AWS Glue Studio, scegli Connectors (Connettori).

  2. Nell'elenco Your connections (Le tue connessioni), seleziona la connessione appena creata e scegli Create job (Crea processo).

  3. Nell'editor visivo dei processi, scegli il nodo di origine dati. A destra, nella scheda Data source properties - Connector (Proprietà origine dati - Connettore), configura ulteriori informazioni per il connettore.

    1. Scegli Add Schema (Aggiungi schema) e inserisci lo schema del set di dati nell'origine dati. Le connessioni non utilizzano tabelle archiviate in Data Catalog, il che significa che AWS Glue Studio non conosce lo schema dei dati. Devi fornire queste informazioni sullo schema manualmente. Per istruzioni su come utilizzare l'editor dello schema, consulta Modifica dello schema in un nodo di trasformazione personalizzato.

    2. Espandi Connection options (Opzioni di connessione).

    3. Scegli (Aggiungi nuova opzione) e inserisci le informazioni necessarie per il connettore non inserite nella casella del segreto AWS:

      • es.nodes: https://<endpoint dominio OpenSearch>

      • es.port: 443

      • path: test

      • es.nodes.wan.only: true

      Per una spiegazione di queste opzioni di connessione, fai riferimento a: https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html.

  4. Aggiungi un nodo di destinazione al grafico.

    La destinazione dati può essere Amazon S3 oppure le informazioni provenienti da un AWS Glue Data Catalog o un connettore possono essere usate per scrivere dati in una posizione diversa. Ad esempio, è possibile utilizzare una tabella del catalogo dati per scrivere in un database in Amazon RDS oppure utilizzare un connettore come destinazione dati per scrivere in archivi dati non supportati in modo nativo in AWS Glue.

    Se si sceglie un connettore per la destinazione dati, è necessario scegliere una connessione creata per tale connettore. Inoltre, se richiesto dal provider del connettore, è necessario aggiungere opzioni per fornire ulteriori informazioni al connettore. Se si utilizza una connessione che contiene informazioni per un segreto AWS, non è necessario fornire l'autenticazione con nome utente e password nelle opzioni di connessione.

  5. Facoltativamente, aggiungi ulteriori origini dati e uno o più nodi di trasformazione come descritto in Modifica dei nodi di trasformazione dei dati gestiti da AWS Glue.

  6. Configura le proprietà del processo come descritto in Modificare le proprietà del processo, iniziando dalla fase 3, e salva il lavoro.

Approfondimenti

Fase 6: esecuzione del processo