Automatizza l'inserimento dei dati da AWS Data Exchange in Amazon S3 - Prontuario AWS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Automatizza l'inserimento dei dati da AWS Data Exchange in Amazon S3

Creato da Adnan Alvee () e Manikanta Gona () AWS AWS

Tecnologie: analisi; DataLakes

Ambiente: produzione

AWSservizi: Amazon S3; Amazon; CloudWatch LambdaAWS; Amazon SNS

Riepilogo

Questo modello fornisce un AWS CloudFormation modello che ti consente di inserire automaticamente i AWS dati da Data Exchange nel tuo data lake in Amazon Simple Storage Service (Amazon S3). 

AWSData Exchange è un servizio che semplifica lo scambio sicuro di set di dati basati su file nel cloud. AWS AWSI set di dati Data Exchange sono basati su abbonamento. In qualità di abbonato, puoi anche accedere alle revisioni dei set di dati man mano che i provider pubblicano nuovi dati. 

Il AWS CloudFormation modello crea un evento Amazon CloudWatch Events e una funzione AWS Lambda. L'evento rileva eventuali aggiornamenti al set di dati a cui ti sei abbonato. Se è presente un aggiornamento, CloudWatch avvia una funzione Lambda, che copia i dati nel bucket S3 specificato. Quando i dati sono stati copiati correttamente, Lambda ti invia una notifica Amazon Simple Notification Service (SNSAmazon).

Prerequisiti e limitazioni

Prerequisiti

  • Un account attivo AWS

  • Abbonamento a un set di dati in AWS Data Exchange

Limitazioni

  • Il AWS CloudFormation modello deve essere distribuito separatamente per ogni set di dati sottoscritto in AWS Data Exchange.

Architettura

Stack tecnologico Target

  • AWSLambda

  • Amazon S3

  • AWS Data Exchange

  • Amazon CloudWatch

  • Amazon SNS

Architettura Target

CloudWatch avvia una funzione Lambda per copiare i dati nel bucket S3 e inviare notifiche Amazon. SNS

Automazione e scalabilità

Puoi utilizzare il AWS CloudFormation modello più volte per i set di dati che desideri inserire nel data lake.

Strumenti

  • AWSData Exchange: un servizio che semplifica per AWS i clienti lo scambio sicuro di set di dati basati su file nel cloud. AWS In qualità di abbonato, puoi trovare e abbonarti a centinaia di prodotti di fornitori di dati qualificati. Quindi, puoi scaricare rapidamente il set di dati o copiarlo su Amazon S3 per utilizzarlo in una varietà di servizi di AWS analisi e apprendimento automatico. Chiunque disponga di un AWS account può abbonarsi a AWS Data Exchange.

  • AWSLambda: un servizio di elaborazione che consente di eseguire codice senza effettuare il provisioning o la gestione di server. AWSLambda esegue il codice solo quando necessario e si ridimensiona automaticamente, da poche richieste al giorno a migliaia al secondo. Paghi solo per il tempo di elaborazione che consumi; non ci sono costi quando il codice non è in esecuzione. Con AWS Lambda, puoi eseguire codice praticamente per qualsiasi tipo di applicazione o servizio di backend senza alcuna amministrazione. AWSLambda esegue il codice su un'infrastruttura di elaborazione ad alta disponibilità e gestisce tutte le risorse di calcolo, tra cui la manutenzione di server e sistemi operativi, il provisioning della capacità e il ridimensionamento automatico, il monitoraggio del codice e la registrazione.

  • Amazon S3: storage per Internet. È possibile utilizzare Amazon S3 per memorizzare e recuperare qualsiasi volume di dati, in qualunque momento e da qualunque luogo tramite il Web.

  • Amazon CloudWatch Events: offre un flusso quasi in tempo reale di eventi di sistema che descrivono i cambiamenti nelle AWS risorse. Utilizzando semplici regole che puoi configurare rapidamente, puoi abbinare gli eventi e indirizzarli a una o più funzioni o flussi di destinazione. CloudWatch Gli eventi vengono a conoscenza dei cambiamenti operativi man mano che si verificano. Risponde a questi cambiamenti operativi e adotta le azioni correttive necessarie, inviando messaggi per rispondere all'ambiente, attivando funzioni, apportando modifiche e acquisendo informazioni sullo stato. Puoi anche utilizzare CloudWatch Events per pianificare azioni automatiche che si avviano automaticamente in determinati momenti utilizzando le espressioni cron o rate.

  • Amazon SNS: un servizio web che consente alle applicazioni, agli utenti finali e ai dispositivi di inviare e ricevere istantaneamente notifiche dal cloud. Amazon SNS fornisce argomenti (canali di comunicazione) per la messaggistica ad alto throughput e basata su push. many-to-many Utilizzando SNS gli argomenti di Amazon, gli editori possono distribuire messaggi a un gran numero di abbonati per l'elaborazione parallela, tra cui code Amazon Simple SQS Queue Service (Amazon), funzioni AWS Lambda e webhook /S. HTTP Puoi anche utilizzare Amazon SNS per inviare notifiche agli utenti finali tramite push mobile ed e-mail. SMS

Epiche

AttivitàDescrizioneCompetenze richieste

Abbonarsi a un set di dati.

Nella console AWS Data Exchange, sottoscrivi un set di dati. Per istruzioni, consulta il link nella sezione «Risorse correlate».

Generale AWS

Nota gli attributi del set di dati.

Annota la AWS regione, l'ID e l'ID di revisione per il set di dati. Ti servirà per il AWS CloudFormation modello nel passaggio successivo.

Generale AWS
AttivitàDescrizioneCompetenze richieste

Crea un bucket e una cartella S3.

Se disponi già di un data lake in Amazon S3, crea una cartella in cui archiviare i dati da importare da Data ExchangeAWS. Se stai distribuendo il modello a scopo di test, crea un nuovo bucket S3 e annota il nome del bucket e il prefisso della cartella per il passaggio successivo.

Generale AWS

Implementa il AWS CloudFormation modello.

Distribuisci il AWS CloudFormation modello fornito come allegato a questo modello. Configura i seguenti parametri in modo che corrispondano all'AWSaccount, al set di dati e alle impostazioni del bucket S3: Dataset AWS Region, Dataset ID, Revision ID, S3 Bucket Name (ad esempio, DOC - EXAMPLE -BUCKET), Folder Prefix (ad esempio, myfolder/) ed Email for Notification. SNS È possibile impostare il parametro Dataset Name su qualsiasi nome. Quando si distribuisce il modello, esegue una funzione Lambda per importare automaticamente il primo set di dati disponibile nel set di dati. L'ingestione successiva avviene quindi automaticamente, non appena arrivano nuovi dati nel set di dati.

Generale AWS

Risorse correlate

Allegati

Per accedere al contenuto aggiuntivo associato a questo documento, decomprimi il seguente file: attachment.zip