Analisi

AWS offre un set completo di servizi di analisi che soddisfano tutte le esigenze di analisi dei dati e consente alle organizzazioni di tutte le dimensioni e settori di reinventare la propria attività con i dati. Dall'archiviazione alla gestione, alla governance dei dati, alle azioni e alle esperienze, AWS offre servizi appositamente progettati che offrono il miglior rapporto prezzo/prestazioni, scalabilità e costi più bassi.

Ogni servizio è descritto dopo il diagramma. Per aiutarti a decidere quale servizio soddisfa meglio le tue esigenze, vedi Scelta di un servizio di AWS analisi. Per informazioni generali, consulta Analytics on AWS.

Diagramma che mostra i servizi AWS di analisi

Ritorna a. AWS servizi

Amazon Athena

Amazon Athena è un servizio di query interattivo che semplifica l'analisi dei dati in Amazon S3 utilizzando SQL standard. Athena è un servizio serverless, perciò non occorre installare o gestire alcuna infrastruttura e vengono addebitati solo i costi relativi all'esecuzione delle query.

Athena è facile da usare. È sufficiente indicare i dati in Amazon S3, definire lo schema e iniziare a eseguire query utilizzando SQL standard. La maggior parte dei risultati viene fornita in pochi secondi. Con Athena, non sono necessari complessi processi di estrazione, trasformazione e caricamento (ETL) per preparare i dati per l'analisi. Ciò semplifica l'analisi rapida di set di dati su larga scala per chiunque abbia competenze SQL.

Athena è out-of-the-box integrato con AWS Glue Data Catalog e consente di creare un repository di metadati unificato su vari servizi, eseguire la scansione delle fonti di dati per scoprire schemi e popolare il catalogo con definizioni di tabelle e partizioni nuove e modificate e mantenere il controllo delle versioni dello schema.

Amazon CloudSearch

Amazon CloudSearch è un servizio gestito Cloud AWS che semplifica ed economica la configurazione, la gestione e la scalabilità di una soluzione di ricerca per il tuo sito Web o la tua applicazione. Amazon CloudSearch supporta 34 lingue e le funzioni di ricerca più diffuse come l'evidenziazione, il completamento automatico e la ricerca geospaziale.

Amazon DataZone

Amazon DataZone è un servizio di gestione dei dati che puoi utilizzare per pubblicare dati e renderli disponibili nel catalogo di dati aziendali tramite la tua applicazione web personalizzata. Puoi accedere ai tuoi dati in modo più sicuro indipendentemente da dove sono archiviati: in locale AWS, in sede o in applicazioni SaaS come Salesforce. Amazon DataZone semplifica la tua esperienza con AWS servizi come Amazon Redshift, Amazon Athena, e. AWS Glue AWS Lake Formation QuickSight

Amazon EMR

Amazon EMR è la piattaforma cloud di big data leader del settore per l'elaborazione di grandi quantità di dati utilizzando strumenti open source come Apache Spark, Apache Hive, Apache , Apache Flink, Apache Hudi e HBasePresto. Amazon EMR semplifica la configurazione, il funzionamento e la scalabilità degli ambienti Big Data automatizzando attività dispendiose in termini di tempo come il provisioning della capacità e l'ottimizzazione dei cluster. Con Amazon EMR, puoi eseguire analisi su scala petabyte a meno della metà del costo delle soluzioni locali tradizionali e oltre 3 volte più velocemente rispetto allo standard Apache Spark. Puoi eseguire carichi di lavoro su EC2 istanze Amazon, su cluster Amazon Elastic Kubernetes Service (Amazon EKS) o in locale utilizzando Amazon EMR on. AWS Outposts

Amazon FinSpace

Amazon FinSpaceè un servizio di gestione e analisi dei dati creato appositamente per il settore dei servizi finanziari (FSI). FinSpace riduce da mesi a minuti il tempo dedicato alla ricerca e alla preparazione di petabyte di dati finanziari pronti per l'analisi.

Le organizzazioni di servizi finanziari analizzano i dati provenienti da archivi di dati interni come i sistemi di portafoglio, attuariali e di gestione del rischio, nonché i petabyte di dati provenienti da feed di dati di terze parti, come i prezzi storici dei titoli delle borse. Possono essere necessari mesi per trovare i dati giusti, ottenere le autorizzazioni per accedere ai dati in modo conforme e prepararli per l'analisi.

FinSpace elimina l'oneroso compito di creare e mantenere un sistema di gestione dei dati per l'analisi finanziaria. Con FinSpace, raccogli dati e li cataloghi in base a concetti aziendali pertinenti come classe di asset, classificazione del rischio o area geografica. FinSpace semplifica l'individuazione e la condivisione dei dati all'interno dell'organizzazione in conformità ai requisiti di conformità. È possibile definire le politiche di accesso ai dati in un unico posto e FinSpace applicarle, conservando al contempo i registri di controllo per consentire la conformità e la reportistica delle attività. FinSpace include anche una libreria di oltre 100 funzioni, come barre temporali e bande di Bollinger, per preparare i dati per l'analisi.

Amazon Kinesis

Amazon Kinesis semplifica la raccolta, l'elaborazione e l'analisi di dati in streaming in tempo reale in modo da ottenere informazioni tempestive e reagire rapidamente alle nuove informazioni. Amazon Kinesis offre funzionalità chiave per elaborare in modo conveniente lo streaming di dati su qualsiasi scala, oltre alla flessibilità di scegliere gli strumenti più adatti ai requisiti dell'applicazione. Con Amazon Kinesis, puoi importare dati in tempo reale come video, audio, log delle applicazioni, clickstream di siti Web e dati di telemetria IoT per l'apprendimento automatico (ML), l'analisi e altre applicazioni. Amazon Kinesis ti consente di elaborare e analizzare i dati non appena arrivano e di rispondere istantaneamente invece di dover attendere che tutti i dati vengano raccolti prima che l'elaborazione possa iniziare.

Amazon Kinesis offre attualmente quattro servizi: Firehose, Managed Service for Apache Flink, Kinesis Data Streams e Kinesis Video Streams.

Amazon Data Firehose

Amazon Data Firehose è il modo più semplice per caricare in modo affidabile i dati di streaming in archivi dati e strumenti di analisi. Può acquisire, trasformare e caricare dati di streaming in Amazon S3, Amazon Redshift, OpenSearch Amazon Service e Splunk, abilitando analisi quasi in tempo reale con gli strumenti e le dashboard di business intelligence esistenti che già utilizzi oggi. È un servizio completamente gestito che si ridimensiona automaticamente in base alla velocità di trasmissione dei dati e non richiede alcuna amministrazione continua. Può anche raggruppare, comprimere, trasformare e crittografare i dati prima di caricarli, riducendo al minimo la quantità di storage utilizzata nella destinazione e aumentando la sicurezza.

È possibile creare facilmente un flusso di distribuzione Firehose da AWS Management Console, configurarlo con pochi clic e iniziare a inviare dati allo stream da centinaia di migliaia di fonti di dati su cui caricarli continuamente, il tutto in pochi minuti AWS. Puoi anche configurare il flusso di distribuzione per convertire automaticamente i dati in entrata in formati colonnari come Apache Parquet e Apache ORC, prima che i dati vengano consegnati ad Amazon S3, per uno storage e un'analisi convenienti.

Servizio gestito da Amazon per Apache Flink

Amazon Managed Service per Apache Flink è il modo più semplice per analizzare i dati in streaming, ottenere informazioni utili e rispondere alle esigenze aziendali e dei clienti in tempo reale. Amazon Managed Service for Apache Flink riduce la complessità di creazione, gestione e integrazione di applicazioni di streaming con altri servizi. AWS Gli utenti SQL possono facilmente interrogare i dati di streaming o creare intere applicazioni di streaming utilizzando modelli e un editor SQL interattivo. Gli sviluppatori Java possono creare rapidamente applicazioni di streaming sofisticate utilizzando librerie e AWS integrazioni Java open source per trasformare e analizzare i dati in tempo reale.

Amazon Managed Service per Apache Flink si occupa di tutto il necessario per eseguire le query in modo continuo e si adatta automaticamente al volume e alla velocità di trasmissione dei dati in entrata.

Flusso di dati Amazon Kinesis

Amazon Kinesis Data Streams è un servizio di streaming di dati in tempo reale estremamente scalabile e durevole. Kinesis Data Streams è in grado di acquisire continuamente gigabyte di dati al secondo da centinaia di migliaia di fonti come clickstream di siti Web, flussi di eventi del database, transazioni finanziarie, feed di social media, log IT ed eventi di tracciamento della posizione. I dati raccolti sono disponibili in millisecondi per consentire casi d'uso di analisi in tempo reale come dashboard in tempo reale, rilevamento di anomalie in tempo reale, prezzi dinamici e altro ancora.

Amazon Kinesis Video Streams

Amazon Kinesis Video Streams semplifica lo streaming sicuro di video dai AWS dispositivi collegati per analisi, ML, riproduzione e altre elaborazioni. Kinesis Video Streams effettua automaticamente il provisioning e ridimensiona elasticamente tutta l'infrastruttura necessaria per importare dati video in streaming da milioni di dispositivi. Inoltre, archivia, crittografa e indicizza in modo duraturo i dati video nei tuoi stream e ti consente di accedervi tramite. easy-to-use APIs Kinesis Video Streams consente di riprodurre video per la visualizzazione dal vivo e su richiesta e di creare rapidamente applicazioni che sfruttano la visione artificiale e l'analisi video attraverso l'integrazione con Amazon Rekognition Video e librerie per framework ML come Apache e OpenCV. MxNet TensorFlow

OpenSearch Servizio Amazon

Amazon OpenSearch Service (OpenSearch Service) semplifica l'implementazione, la sicurezza, il funzionamento e la scalabilità OpenSearch per cercare, analizzare e visualizzare i dati in tempo reale. Con Amazon OpenSearch Service, ottieni easy-to-use APIs funzionalità di analisi in tempo reale per potenziare casi d'uso come analisi dei log, ricerca full-text, monitoraggio delle applicazioni e analisi clickstream, con disponibilità, scalabilità e sicurezza di livello aziendale. Il servizio offre integrazioni con strumenti open source come Dashboards e Logstash per l'inserimento e la visualizzazione dei dati. OpenSearch Si integra inoltre perfettamente con altri AWS servizi come Amazon Virtual Private Cloud (Amazon VPC), (AWS Key Management Service), Amazon Data Firehose AWS KMS, (IAM AWS Identity and Access Management ) AWS Lambda, Amazon Cognito e CloudWatchAmazon, in modo da poter passare rapidamente dai dati grezzi a informazioni fruibili.

Amazon OpenSearch Serverless

Amazon OpenSearch Serverless è un'opzione serverless di Amazon OpenSearch Service. In qualità di sviluppatore, puoi utilizzare OpenSearch Serverless per eseguire carichi di lavoro su scala petabyte senza configurare, gestire e scalare i cluster. OpenSearch Ottieni gli stessi tempi di risposta interattivi in millisecondi di Service con la semplicità di un ambiente serverless. OpenSearch

Il motore vettoriale per Amazon OpenSearch Serverless aggiunge una funzionalità di archiviazione e ricerca vettoriale semplice, scalabile e ad alte prestazioni per aiutare gli sviluppatori a creare esperienze di ricerca basate sul machine learning e applicazioni di intelligenza artificiale generativa senza dover gestire l'infrastruttura di database vettoriali. I casi d'uso per le raccolte di ricerche vettoriali includono la ricerca di immagini, la ricerca di documenti, il recupero di musica, la raccomandazione di prodotti, la ricerca di video, la ricerca basata sulla posizione, il rilevamento di frodi e il rilevamento di anomalie.

Amazon Redshift

Amazon Redshift è il data warehouse cloud più utilizzato. Consente di analizzare tutti i dati in modo rapido, semplice ed economico utilizzando SQL standard e gli strumenti di Business Intelligence (BI) esistenti. Consente di eseguire query analitiche complesse su terabyte o petabyte di dati strutturati e semistrutturati, utilizzando una sofisticata ottimizzazione delle query, lo storage a colonne su storage ad alte prestazioni e il completamento di query in modalità massivamente parallela. La maggior parte dei risultati viene restituita in pochi secondi. Puoi iniziare in piccolo con soli 0,25 USD all'ora senza impegni e scalare fino a petabyte di dati per 1.000 USD per terabyte all'anno, meno di un decimo del costo delle tradizionali soluzioni locali.

Amazon Redshift Serverless

Amazon Redshift Serverless semplifica l'esecuzione e la scalabilità delle analisi senza dover gestire l'infrastruttura di data warehouse. Sviluppatori, data scientist e analisti possono lavorare su database, data warehouse e data lake per creare applicazioni di reporting e dashboard, eseguire analisi quasi in tempo reale, condividere e collaborare sui dati e creare e addestrare modelli di machine learning (ML). Passa da grandi quantità di dati a informazioni approfondite in pochi secondi. Amazon Redshift Serverless effettua automaticamente il provisioning e ridimensiona in modo intelligente la capacità di data warehouse per offrire prestazioni veloci anche per i carichi di lavoro più impegnativi e imprevedibili, pagando solo per ciò che usi. Basta caricare i dati e iniziare subito a eseguire query in Amazon Redshift Query Editor o nel tuo strumento di business intelligence (BI) preferito e continuare a usufruire del miglior rapporto prezzo/prestazioni e delle familiari funzionalità SQL in easy-to-use un ambiente senza amministrazione.

QuickSight

QuickSightè un servizio di business intelligence (BI) veloce e basato sul cloud che ti consente di fornire facilmente informazioni a tutti i membri della tua organizzazione. QuickSight consente di creare e pubblicare dashboard interattive a cui è possibile accedere da browser o dispositivi mobili. Puoi incorporare dashboard nelle tue applicazioni, fornendo ai tuoi clienti potenti analisi self-service. QuickSight si adatta facilmente a decine di migliaia di utenti senza alcun software da installare, server da implementare o infrastruttura da gestire.

AWS Clean Rooms

AWS Clean Roomsaiuta le aziende e i loro partner ad analizzare e collaborare in modo più semplice e sicuro sui loro set di dati collettivi, senza condividere o copiare i dati sottostanti reciproci. Con AWS Clean Rooms, i clienti possono creare una camera bianca sicura per i dati in pochi minuti e collaborare con qualsiasi altra azienda Cloud AWS per generare informazioni uniche su campagne pubblicitarie, decisioni di investimento e ricerca e sviluppo.

AWS Data Exchange

AWS Data Exchangesemplifica la ricerca, la sottoscrizione e l'utilizzo di dati di terze parti nel cloud. I fornitori di dati qualificati includono marchi leader del settore come Reuters, che cura i dati di oltre 2,2 milioni di notizie uniche all'anno in più lingue; Change Healthcare, che elabora e anonimizza più di 14 miliardi di transazioni sanitarie e 1 trilione di dollari in richieste di risarcimento all'anno; Dun & Bradstreet, che gestisce un database di oltre 330 milioni di record aziendali globali; e Foursquare, i cui dati sulla posizione derivano da 220 milioni di consumatori unici a livello globale e includono più di 60 milioni di dati aziendali globali locali commerciali.

Una volta sottoscritto un prodotto di dati, puoi utilizzare l' AWS Data Exchange API per caricare i dati direttamente in Amazon S3 e poi analizzarli con un'ampia varietà AWS di servizi di analisi e ML. Ad esempio, gli assicuratori immobiliari possono abbonarsi ai dati per analizzare i modelli meteorologici storici per calibrare i requisiti di copertura assicurativa in diverse aree geografiche; i ristoranti possono abbonarsi ai dati sulla popolazione e sull'ubicazione per identificare le regioni ottimali per l'espansione; i ricercatori accademici possono condurre studi sui cambiamenti climatici sottoscrivendo dati sulle emissioni di anidride carbonica; e gli operatori sanitari possono abbonarsi ai dati aggregati delle sperimentazioni cliniche storiche per accelerare le loro attività di ricerca.

Per i fornitori di dati, AWS Data Exchange semplifica il raggiungimento dei milioni di AWS clienti che migrano al cloud eliminando la necessità di creare e mantenere un'infrastruttura per l'archiviazione, la consegna, la fatturazione e l'autorizzazione dei dati.

AWS Data Pipeline

AWS Data Pipelineè un servizio web che consente di elaborare e spostare in modo affidabile i dati tra diversi servizi di AWS elaborazione e archiviazione, nonché fonti di dati locali, a intervalli specifici. Con AWS Data Pipeline, puoi accedere regolarmente ai tuoi dati dove sono archiviati, trasformarli ed elaborarli su larga scala e trasferire in modo efficiente i risultati a servizi AWS come Amazon S3, Amazon RDS,Amazon DynamoDB e Amazon EMR.

AWS Data Pipeline ti aiuta a creare facilmente carichi di lavoro di elaborazione dati complessi con tolleranza ai guasti, ripetibili e altamente disponibili. Non devi preoccuparti di garantire la disponibilità delle risorse, gestire le dipendenze tra le attività, riprovare gli errori o i timeout transitori nelle singole attività o creare un sistema di notifica degli errori. AWS Data Pipeline consente inoltre di spostare ed elaborare dati precedentemente bloccati in silos di dati locali.

AWS Risoluzione delle entità

AWS Entity Resolution è un servizio che consente di abbinare e collegare i record correlati archiviati su più applicazioni, canali e archivi di dati senza creare una soluzione personalizzata. Utilizzando tecniche di machine learning flessibili e configurabili e basate su regole, AWS Entity Resolution può rimuovere i record duplicati, creare profili dei clienti collegando diverse interazioni con i clienti e personalizzare le esperienze attraverso campagne pubblicitarie e di marketing, programmi di fidelizzazione ed e-commerce. Ad esempio, puoi creare una visualizzazione unificata delle interazioni con i clienti collegando eventi recenti, come clic sugli annunci, abbandono del carrello e acquisti, in un Match ID univoco.

AWS Glue

AWS Glueè un servizio di estrazione, trasformazione e caricamento (ETL) completamente gestito che semplifica la preparazione e il caricamento dei dati per l'analisi da parte dei clienti. È possibile creare ed eseguire un processo ETL con pochi clic nel. AWS Management ConsoleÈ sufficiente AWS Glue indicare i dati archiviati in AWS, AWS Glue scoprirli e archiviare i metadati associati (come la definizione della tabella e lo schema) in. AWS Glue Data Catalog Una volta catalogati, i dati sono immediatamente ricercabili, interrogabili e disponibili per ETL.

AWS Glue I motori di integrazione dei dati forniscono l'accesso ai dati utilizzando Apache Spark e PySpark Python. Con l'aggiunta di AWS Glue for Ray, puoi scalare ulteriormente i tuoi carichi di lavoro utilizzando Ray, un framework di elaborazione unificato open source.

AWS Glue Data Quality può misurare e monitorare la qualità dei dati di data lake, data warehouse e altri repository di dati basati su Amazon S3. Calcola automaticamente le statistiche, consiglia regole di qualità e può monitorare e avvisare l'utente quando rileva dati mancanti, obsoleti o errati. È possibile accedervi nei AWS Glue Data Catalog e nei AWS Glue Data Catalog job ETL.

AWS Lake Formation

AWS Lake Formationè un servizio che semplifica la configurazione di un data lake sicuro in pochi giorni. Un data lake è un repository centralizzato, curato e sicuro che archivia tutti i dati, sia nella loro forma originale che preparati per l'analisi. Un data lake consente di suddividere i silos di dati e combinare diversi tipi di analisi per ottenere informazioni dettagliate e prendere così migliori decisioni aziendali.

Tuttavia, la configurazione e la gestione dei data lake oggi richiedono molte attività manuali, complicate e dispendiose in termini di tempo. Questo lavoro include il caricamento di dati da diverse fonti, il monitoraggio di tali flussi di dati, l'impostazione delle partizioni, l'attivazione della crittografia e la gestione delle chiavi, la definizione dei processi di trasformazione e il monitoraggio del loro funzionamento, la riorganizzazione dei dati in un formato colonnare, la configurazione delle impostazioni di controllo degli accessi, la deduplicazione dei dati ridondanti, la corrispondenza dei record collegati, la concessione dell'accesso ai set di dati e il controllo dell'accesso nel tempo.

Creare un data lake con Lake Formation è semplice: basta definire dove risiedono i dati e quali politiche di accesso e sicurezza ai dati si desidera applicare. Lake Formation raccoglie e cataloga i dati dai database e dallo storage di oggetti, li sposta nel nuovo data lake Amazon S3, pulisce e classifica i dati utilizzando algoritmi ML e protegge l'accesso ai dati sensibili. I tuoi utenti possono quindi accedere a un catalogo centralizzato di dati che descrive i set di dati disponibili e il loro utilizzo appropriato. I tuoi utenti sfruttano quindi questi set di dati con la loro scelta di servizi di analisi e ML, come Amazon EMR per Apache Spark, Amazon Redshift, Amazon Athena, AI e. SageMaker QuickSight

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

Amazon Managed Streaming for Apache Kafka (Amazon MSK) è un servizio completamente gestito che semplifica la creazione e l'esecuzione di applicazioni che utilizzano Apache Kafka per elaborare dati di streaming. Apache Kafka è una piattaforma open source per la creazione di pipeline e applicazioni di streaming di dati in tempo reale. Con Amazon MSK, puoi usare Apache Kafka APIs per popolare i data lake, trasmettere le modifiche da e verso i database ed eseguire applicazioni di machine learning e analisi.

I cluster Apache Kafka sono difficili da configurare, scalare e gestire in produzione. Quando si esegue Apache Kafka da soli, è necessario effettuare il provisioning dei server, configurare Apache Kafka manualmente, sostituire i server in caso di guasto, orchestrare le patch e gli aggiornamenti dei server, progettare il cluster per l'elevata disponibilità, garantire che i dati siano archiviati e protetti in modo duraturo, configurare il monitoraggio e gli allarmi e pianificare attentamente gli eventi di scalabilità per supportare le modifiche del carico. Amazon MSK semplifica la creazione e l'esecuzione di applicazioni di produzione su Apache Kafka senza bisogno di competenze nella gestione dell'infrastruttura di Apache Kafka. Ciò significa che dedichi meno tempo alla gestione dell'infrastruttura e più tempo alla creazione di applicazioni.

Con pochi clic nella console Amazon MSK puoi creare cluster Apache Kafka ad alta disponibilità con impostazioni e configurazioni basate sulle best practice di implementazione di Apache Kafka. Amazon MSK effettua automaticamente il provisioning ed esegue i cluster Apache Kafka. Amazon MSK monitora continuamente lo stato del cluster e sostituisce automaticamente i nodi non integri senza tempi di inattività dell'applicazione. Inoltre, Amazon MSK protegge il tuo cluster Apache Kafka crittografando i dati inattivi.