Utilizzo di un'origine dati di streaming

È possibile creare processi in streaming di estrazione, trasformazione e caricamento (ETL) che vengono eseguiti continuamente e consumano dati da origini di streaming in Amazon Kinesis Data Streams, Apache Kafka e Amazon Managed Streaming for Apache Kafka (Amazon MSK).

Per configurare le proprietà per un'origine dati di streaming

Vai all'editor grafico visivo per un processo nuovo o salvato.
Scegli un nodo origine dati nel grafico per Kafka o Kinesis Data Streams.
Seleziona la scheda Data source properties (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:
Kinesis
Kinesis source type (Tipo sorgente Kinesis): scegli l'opzione Stream details (Dettagli streaming) per utilizzare l'accesso diretto alla sorgente di streaming o Data Catalog table (Tabella Data Catalog) per utilizzare invece le informazioni archiviate in questa posizione.

Se scegli Stream details (Dettagli streaming), specifica le seguenti informazioni aggiuntive.

Posizione del flusso di dati: scegli se il flusso di dati è associato all'utente corrente o se è associato a un altro utente.

Regione: scegli Regione AWS dove esiste lo stream. Queste informazioni vengono utilizzate per costruire l'ARN per l'accesso al flusso di dati.

Stream ARN (ARN del flusso di dati): l'Amazon Resource Name (ARN) per l'endpoint del flusso di dati Kinesis. Se il flusso di dati si trova nell'account corrente, è possibile selezionarne il nome dall'elenco a discesa. Puoi utilizzare il campo di ricerca per cercare un flusso dei dati per nome o per ARN.

Data format (Formato dei dati): scegli il formato utilizzato dal flusso di dati dall'elenco.

AWS Glue rileva automaticamente lo schema dai dati di streaming.

Se scegli Data Catalog table (Tabella Data Catalog), specifica le seguenti informazioni aggiuntive.

Database: (Facoltativo) Scegli il database nel AWS Glue Catalogo dati che contiene la tabella associata alla fonte di dati di streaming. Puoi utilizzare il campo di ricerca per cercare un database per nome.

Table (Tabella): (facoltativo) scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve essere già presente in AWS Glue Catalogo dati. Puoi utilizzare il campo di ricerca per cercare una tabella per nome.

Rileva schema: scegli questa opzione per avere AWS Glue rileva lo schema dai dati in streaming, anziché utilizzare le informazioni sullo schema in una tabella del catalogo dati. Se scegli l'opzione Stream details (Dettagli streaming), questa opzione è abilitata automaticamente.

Starting position (Posizione di inizio): per impostazione predefinita, il processo ETL utilizza l'opzione Earliest (Primo), il che significa che legge i dati a partire dal registro più vecchio disponibile nel flusso di dati. Puoi invece scegliere Latest (Più recente), che indica che il processo ETL dovrebbe iniziare a leggere subito dopo il registro più recente nel flusso di dati.

Window size (Dimensione finestra): per impostazione predefinita, il processo ETL elabora e scrive i dati in finestre di 100 secondi. Ciò consente di elaborare i dati in modo efficiente e di eseguire aggregazioni su dati che arrivano più tardi del previsto. Puoi modificare questa dimensione della finestra per aumentare la tempestività o la precisione dell'aggregazione.

AWS Glue i lavori di streaming utilizzano i checkpoint anziché i segnalibri di lavoro per tenere traccia dei dati che sono stati letti.

Connection options (Opzioni di connessione): espandi questa sezione per aggiungere coppie chiave-valore per specificare opzioni di connessione aggiuntive. Per informazioni sulle opzioni che è possibile specificare qui, consulta "connectionType": "kinesis" nella Guida per gli sviluppatori di AWS Glue .
Kafka
Apache Kafka source (Origine Apache Kafka): scegli l'opzione Stream details (Dettagli streaming) per utilizzare l'accesso diretto alla sorgente di streaming o Data Catalog table (Tabella Data Catalog) per utilizzare invece le informazioni archiviate in questa posizione.

Se scegli Data Catalog table (Tabella Data Catalog), specifica le seguenti informazioni aggiuntive.

Database: (Facoltativo) Scegli il database nel AWS Glue Catalogo dati che contiene la tabella associata alla fonte di dati di streaming. Puoi utilizzare il campo di ricerca per cercare un database per nome.

Table (Tabella): (facoltativo) scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve essere già presente in AWS Glue Catalogo dati. Puoi utilizzare il campo di ricerca per cercare una tabella per nome.

Rileva schema: scegli questa opzione per avere AWS Glue rileva lo schema dai dati in streaming, anziché archiviare le informazioni sullo schema in una tabella del catalogo dati. Se scegli l'opzione Stream details (Dettagli streaming), questa opzione è abilitata automaticamente.

Se scegli Stream details (Dettagli streaming), specifica le seguenti informazioni aggiuntive.

Nome della connessione: scegli AWS Glue connessione che contiene le informazioni di accesso e autenticazione per il flusso di dati Kafka. È necessario utilizzare una connessione con le origini dati in streaming di Kafka. Se non esiste una connessione, puoi usare il AWS Glue console per creare una connessione per il flusso di dati Kafka.

Topic name (Nome argomento): inserisci il nome dell'argomento da cui leggere.

Data format (Formato dei dati): scegli il formato da utilizzare durante la lettura dei dati dal flusso di eventi Kafka.

Starting position (Posizione di inizio): per impostazione predefinita, il processo ETL utilizza l'opzione Earliest (Primo), il che significa che legge i dati a partire dal registro più vecchio disponibile nel flusso di dati. Puoi invece scegliere Latest (Più recente), che indica che il processo ETL dovrebbe iniziare a leggere subito dopo il registro più recente nel flusso di dati.

Window size (Dimensione finestra): per impostazione predefinita, il processo ETL elabora e scrive i dati in finestre di 100 secondi. Ciò consente di elaborare i dati in modo efficiente e di eseguire aggregazioni su dati che arrivano più tardi del previsto. Puoi modificare questa dimensione della finestra per aumentare la tempestività o la precisione dell'aggregazione.

AWS Glue i lavori di streaming utilizzano i checkpoint anziché i segnalibri di lavoro per tenere traccia dei dati che sono stati letti.

Connection options (Opzioni di connessione): espandi questa sezione per aggiungere coppie chiave-valore per specificare opzioni di connessione aggiuntive. Per informazioni sulle opzioni che è possibile specificare qui, consulta "connectionType": "kafka" nella Guida per gli sviluppatori di AWS Glue .

Nota

Le anteprime dei dati non sono attualmente supportate per le origini dati di streaming.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di file in Amazon S3 per l'origine dati

Riferimenti