Utilizzo di un'origine dati di streaming - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di un'origine dati di streaming

È possibile creare processi in streaming di estrazione, trasformazione e caricamento (ETL) che vengono eseguiti continuamente e consumano dati da origini di streaming in Amazon Kinesis Data Streams, Apache Kafka e Amazon Managed Streaming for Apache Kafka (Amazon MSK).

Per configurare le proprietà per un'origine dati di streaming
  1. Vai all'editor grafico visivo per un processo nuovo o salvato.

  2. Scegli un nodo origine dati nel grafico per Kafka o Kinesis Data Streams.

  3. Seleziona la scheda Data source properties (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:

    Kinesis
    • Kinesis source type (Tipo sorgente Kinesis): scegli l'opzione Stream details (Dettagli streaming) per utilizzare l'accesso diretto alla sorgente di streaming o Data Catalog table (Tabella Data Catalog) per utilizzare invece le informazioni archiviate in questa posizione.

      Se scegli Stream details (Dettagli streaming), specifica le seguenti informazioni aggiuntive.

      • Posizione del flusso di dati: scegli se il flusso di dati è associato all'utente corrente o se è associato a un altro utente.

      • Regione: scegli Regione AWS dove esiste lo stream. Queste informazioni vengono utilizzate per costruire l'ARN per l'accesso al flusso di dati.

      • Stream ARN (ARN del flusso di dati): l'Amazon Resource Name (ARN) per l'endpoint del flusso di dati Kinesis. Se il flusso di dati si trova nell'account corrente, è possibile selezionarne il nome dall'elenco a discesa. Puoi utilizzare il campo di ricerca per cercare un flusso dei dati per nome o per ARN.

      • Data format (Formato dei dati): scegli il formato utilizzato dal flusso di dati dall'elenco.

        AWS Glue rileva automaticamente lo schema dai dati in streaming.

      Se scegli Data Catalog table (Tabella Data Catalog), specifica le seguenti informazioni aggiuntive.

      • Database: (facoltativo) scegli il database nel Data Catalog di AWS Glue che contiene la tabella associata all'origine dati in streaming. Puoi utilizzare il campo di ricerca per cercare un database per nome.

      • Table (Tabella): (facoltativo) scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve esistere già nel AWS Glue Data Catalog. Puoi utilizzare il campo di ricerca per cercare una tabella per nome.

      • Detect schema (Rileva schema): scegli questa opzione per permettere ad AWS Glue Glue Studio di rilevare lo schema dai dati di streaming, anziché archiviare le informazioni sullo schema in una tabella di Data Catalog. Se scegli l'opzione Stream details (Dettagli streaming), questa opzione è abilitata automaticamente.

    • Starting position (Posizione di inizio): per impostazione predefinita, il processo ETL utilizza l'opzione Earliest (Primo), il che significa che legge i dati a partire dal registro più vecchio disponibile nel flusso di dati. Puoi invece scegliere Latest (Più recente), che indica che il processo ETL dovrebbe iniziare a leggere subito dopo il registro più recente nel flusso di dati.

    • Window size (Dimensione finestra): per impostazione predefinita, il processo ETL elabora e scrive i dati in finestre di 100 secondi. Ciò consente di elaborare i dati in modo efficiente e di eseguire aggregazioni su dati che arrivano più tardi del previsto. Puoi modificare questa dimensione della finestra per aumentare la tempestività o la precisione dell'aggregazione.

      AWS Glue i lavori di streaming utilizzano i checkpoint anziché i segnalibri di lavoro per tenere traccia dei dati che sono stati letti.

    • Connection options (Opzioni di connessione): espandi questa sezione per aggiungere coppie chiave-valore per specificare opzioni di connessione aggiuntive. Per informazioni sulle opzioni che è possibile specificare qui, consulta "connectionType": "kinesis" nella Guida per gli sviluppatori di AWS Glue .

    Kafka
    • Apache Kafka source (Origine Apache Kafka): scegli l'opzione Stream details (Dettagli streaming) per utilizzare l'accesso diretto alla sorgente di streaming o Data Catalog table (Tabella Data Catalog) per utilizzare invece le informazioni archiviate in questa posizione.

      Se scegli Data Catalog table (Tabella Data Catalog), specifica le seguenti informazioni aggiuntive.

      • Database: (facoltativo) scegli il database nel Data Catalog di AWS Glue che contiene la tabella associata all'origine dati in streaming. Puoi utilizzare il campo di ricerca per cercare un database per nome.

      • Table (Tabella): (facoltativo) scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve esistere già nel AWS Glue Data Catalog. Puoi utilizzare il campo di ricerca per cercare una tabella per nome.

      • Detect schema (Rileva schema): scegli questa opzione per permettere ad AWS Glue di rilevare lo schema dai dati di streaming, anziché archiviare le informazioni sullo schema in una tabella di Data Catalog. Se scegli l'opzione Stream details (Dettagli streaming), questa opzione è abilitata automaticamente.

      Se scegli Stream details (Dettagli streaming), specifica le seguenti informazioni aggiuntive.

      • Connection name (Nome della connessione): scegli la connessione AWS Glue che contiene le informazioni di accesso e autenticazione per il flusso dei dati Kafka. È necessario utilizzare una connessione con le origini dati in streaming di Kafka. Se non esiste una connessione, per creare una connessione per il flusso di dati Kafka è possibile utilizzare la console AWS Glue.

      • Topic name (Nome argomento): inserisci il nome dell'argomento da cui leggere.

      • Data format (Formato dei dati): scegli il formato da utilizzare durante la lettura dei dati dal flusso di eventi Kafka.

    • Starting position (Posizione di inizio): per impostazione predefinita, il processo ETL utilizza l'opzione Earliest (Primo), il che significa che legge i dati a partire dal registro più vecchio disponibile nel flusso di dati. Puoi invece scegliere Latest (Più recente), che indica che il processo ETL dovrebbe iniziare a leggere subito dopo il registro più recente nel flusso di dati.

    • Window size (Dimensione finestra): per impostazione predefinita, il processo ETL elabora e scrive i dati in finestre di 100 secondi. Ciò consente di elaborare i dati in modo efficiente e di eseguire aggregazioni su dati che arrivano più tardi del previsto. Puoi modificare questa dimensione della finestra per aumentare la tempestività o la precisione dell'aggregazione.

      I processi di streaming AWS Glue utilizzano i checkpoint anziché i segnalibri di processo per tenere traccia dei dati letti.

    • Connection options (Opzioni di connessione): espandi questa sezione per aggiungere coppie chiave-valore per specificare opzioni di connessione aggiuntive. Per informazioni sulle opzioni che è possibile specificare qui, consulta "connectionType": "kafka" nella Guida per gli sviluppatori di AWS Glue .

Nota

Le anteprime dei dati non sono attualmente supportate per le origini dati di streaming.