Análises

AWS fornece um conjunto abrangente de serviços de análise que atendem a todas as suas necessidades de análise de dados e permite que organizações de todos os tamanhos e setores reinventem seus negócios com dados. De armazenamento e gerenciamento, governança de dados, ações e experiências, AWS oferece serviços personalizados que oferecem a melhor relação preço-desempenho, escalabilidade e menor custo.

Cada serviço é descrito após o diagrama. Para ajudá-lo a decidir qual serviço atende melhor às suas necessidades, consulte Escolha de um serviço de AWS análise. Para obter informações gerais, consulte Analytics on AWS.

Diagrama mostrando os serviços de AWS análise

Retornar paraAWS serviços.

Amazon Athena

O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. Como o Athena é sem servidor, não há infraestrutura para gerenciar, e você paga apenas pelas consultas executadas.

Athena é fácil de usar. Basta apontar para seus dados no Amazon S3, definir o esquema e começar a consultar usando o SQL padrão. A maioria dos resultados é entregue em segundos. Com o Athena, não há necessidade de trabalhos complexos de extração, transformação e carregamento (ETL) para preparar seus dados para análise. Isso torna mais fácil para qualquer pessoa com habilidades em SQL analisar rapidamente conjuntos de dados em grande escala.

O Athena é out-of-the-box integrado ao AWS Glue Data Catalog, permitindo que você crie um repositório unificado de metadados em vários serviços, rastreie fontes de dados para descobrir esquemas e preencher seu catálogo com definições de tabelas e partições novas e modificadas, além de manter o controle de versão do esquema.

Amazon CloudSearch

CloudSearchA Amazon é um serviço gerenciado Nuvem AWS que torna simples e econômico configurar, gerenciar e escalar uma solução de pesquisa para seu site ou aplicativo. A Amazon CloudSearch oferece suporte a 34 idiomas e recursos de pesquisa populares, como destaque, preenchimento automático e pesquisa geoespacial.

Amazon DataZone

DataZoneA Amazon é um serviço de gerenciamento de dados que você pode usar para publicar dados e disponibilizá-los para o catálogo de dados comerciais por meio de seu aplicativo web personalizado. Você pode acessar seus dados com mais segurança, independentemente de onde eles estejam armazenados: no local ou em aplicativos AWS SaaS, como o Salesforce. A Amazon DataZone simplifica sua experiência em AWS serviços como Amazon Redshift, Amazon Athena,,, e. AWS Glue AWS Lake Formation QuickSight

Amazon EMR

O Amazon EMR é a plataforma de big data na nuvem líder do setor para processar grandes quantidades de dados usando ferramentas de código aberto, como Apache Spark, Apache Hive, Apache , Apache Flink, Apache Hudi e HBasePresto. O Amazon EMR facilita a configuração, a operação e a escalabilidade de seus ambientes de big data automatizando tarefas demoradas, como provisionamento de capacidade e ajuste de clusters. Com o Amazon EMR, você pode executar análises em escala de petabytes por menos da metade do custo das soluções locais tradicionais e mais de três vezes mais rápido do que o Apache Spark padrão. Você pode executar cargas de trabalho em EC2 instâncias da Amazon, em clusters do Amazon Elastic Kubernetes Service (Amazon EKS) ou localmente usando o Amazon EMR on. AWS Outposts

Amazon FinSpace

Amazon FinSpaceé um serviço de gerenciamento e análise de dados desenvolvido especificamente para o setor de serviços financeiros (FSI). FinSpace reduz o tempo gasto encontrando e preparando petabytes de dados financeiros para estarem prontos para análise de meses para minutos.

As organizações de serviços financeiros analisam dados de armazenamentos de dados internos, como sistemas de gerenciamento de portfólio, atuariais e de risco, bem como petabytes de dados de feeds de dados de terceiros, como preços históricos de títulos nas bolsas de valores. Pode levar meses para encontrar os dados certos, obter permissões para acessar os dados de forma compatível e prepará-los para análise.

FinSpace elimina o trabalho pesado de criar e manter um sistema de gerenciamento de dados para análise financeira. Com isso FinSpace, você coleta dados e os cataloga de acordo com conceitos comerciais relevantes, como classe de ativos, classificação de risco ou região geográfica. FinSpace facilita a descoberta e o compartilhamento de dados em toda a organização, de acordo com seus requisitos de conformidade. Você define suas políticas de acesso a dados em um só lugar e FinSpace as aplica, mantendo registros de auditoria para permitir relatórios de conformidade e atividades. FinSpace também inclui uma biblioteca de mais de 100 funções, como barras de tempo e bandas de Bollinger, para você preparar dados para análise.

Amazon Kinesis

O Amazon Kinesis facilita a coleta, o processamento e a análise de dados de streaming em tempo real para que você possa obter insights oportunos e reagir rapidamente a novas informações. O Amazon Kinesis oferece recursos essenciais para processar dados de streaming de forma econômica em qualquer escala, além da flexibilidade de escolher as ferramentas que melhor atendem aos requisitos do seu aplicativo. Com o Amazon Kinesis, você pode ingerir dados em tempo real, como vídeo, áudio, registros de aplicativos, fluxos de cliques de sites e dados de telemetria de IoT para aprendizado de máquina (ML), análises e outros aplicativos. O Amazon Kinesis permite que você processe e analise dados à medida que eles chegam e responda instantaneamente, em vez de ter que esperar até que todos os seus dados sejam coletados para que o processamento possa começar.

Atualmente, o Amazon Kinesis oferece quatro serviços: Firehose, Managed Service for Apache Flink, Kinesis Data Streams e Kinesis Video Streams.

Amazon Data Firehose

O Amazon Data Firehose é a maneira mais fácil de carregar dados de streaming de forma confiável em armazenamentos de dados e ferramentas de análise. Ele pode capturar, transformar e carregar dados de streaming no Amazon S3, Amazon Redshift, OpenSearch Amazon Service e Splunk, permitindo análises quase em tempo real com ferramentas e painéis de inteligência de negócios existentes que você já usa atualmente. É um serviço totalmente gerenciado que se expande automaticamente para corresponder à taxa de transferência de seus dados e não requer administração contínua. Ele também pode agrupar, compactar, transformar e criptografar os dados antes de carregá-los, minimizando a quantidade de armazenamento usada no destino e aumentando a segurança.

Você pode criar facilmente um stream de entrega do Firehose a partir do AWS Management Console, configurá-lo com alguns cliques e começar a enviar dados para o stream de centenas de milhares de fontes de dados para serem carregados continuamente AWS— tudo em apenas alguns minutos. Você também pode configurar seu stream de entrega para converter automaticamente os dados recebidos em formatos colunares, como Apache Parquet e Apache ORC, antes que os dados sejam entregues ao Amazon S3, para armazenamento e análise econômicos.

Amazon Managed Service for Apache Flink

O Amazon Managed Service para Apache Flink é a maneira mais fácil de analisar dados de streaming, obter insights acionáveis e responder às necessidades de sua empresa e de seus clientes em tempo real. O Amazon Managed Service para Apache Flink reduz a complexidade de criar, gerenciar e integrar aplicativos de streaming com outros serviços. AWS Os usuários do SQL podem consultar facilmente dados de streaming ou criar aplicativos de streaming inteiros usando modelos e um editor SQL interativo. Os desenvolvedores de Java podem criar rapidamente aplicativos de streaming sofisticados usando bibliotecas e AWS integrações Java de código aberto para transformar e analisar dados em tempo real.

O Amazon Managed Service para Apache Flink cuida de tudo o que é necessário para executar suas consultas continuamente e escala automaticamente para corresponder ao volume e à taxa de transferência dos dados recebidos.

Amazon Kinesis Data Streams

O Amazon Kinesis Data Streams é um serviço de streaming de dados em tempo real altamente escalável e durável. O Kinesis Data Streams pode capturar continuamente gigabytes de dados por segundo de centenas de milhares de fontes, como fluxos de cliques de sites, fluxos de eventos de bancos de dados, transações financeiras, feeds de mídias sociais, registros de TI e eventos de rastreamento de localização. Os dados coletados estão disponíveis em milissegundos para permitir casos de uso de análises em tempo real, como painéis em tempo real, detecção de anomalias em tempo real, preços dinâmicos e muito mais.

Amazon Kinesis Video Streams

O Amazon Kinesis Video Streams facilita a transmissão segura de vídeo de AWS dispositivos conectados para análise, ML, reprodução e outros processamentos. O Kinesis Video Streams provisiona automaticamente e dimensiona de forma elástica toda a infraestrutura necessária para ingerir dados de streaming de vídeo de milhões de dispositivos. Ele também armazena, criptografa e indexa de forma durável os dados de vídeo em seus streams e permite que você acesse seus dados por meio de. easy-to-use APIs O Kinesis Video Streams permite que você reproduza vídeo para visualização ao vivo e sob demanda e crie rapidamente aplicativos que aproveitam a visão computacional e a análise de vídeo por meio da integração com o Amazon Rekognition Video e bibliotecas para estruturas de ML, como Apache e OpenCV. MxNet TensorFlow

OpenSearch Serviço Amazon

O Amazon OpenSearch Service (OpenSearch Service) facilita a implantação, a proteção, a operação e OpenSearch a escalabilidade para pesquisar, analisar e visualizar dados em tempo real. Com o Amazon OpenSearch Service, você obtém easy-to-use APIs recursos de análise em tempo real para potencializar casos de uso, como análise de log, pesquisa de texto completo, monitoramento de aplicativos e análise de fluxo de cliques, com disponibilidade, escalabilidade e segurança de nível empresarial. O serviço oferece integrações com ferramentas de código aberto, como OpenSearch painéis e Logstash, para ingestão e visualização de dados. Ele também se integra perfeitamente a outros AWS serviços, como Amazon Virtual Private Cloud (Amazon VPC), (AWS Key Management Service), Amazon Data Firehose AWS KMS,, (IAM AWS Identity and Access Management ) AWS Lambda, Amazon Cognito e CloudWatchAmazon, para que você possa passar de dados brutos a insights acionáveis rapidamente.

Amazon sem OpenSearch servidor

O Amazon OpenSearch Serverless é uma opção sem servidor no Amazon Service. OpenSearch Como desenvolvedor, você pode usar o OpenSearch Serverless para executar cargas de trabalho em escala de petabytes sem configurar, gerenciar e escalar clusters. OpenSearch Você obtém os mesmos tempos de resposta interativos em milissegundos do OpenSearch Service com a simplicidade de um ambiente sem servidor.

O mecanismo vetorial do Amazon OpenSearch Serverless adiciona um recurso de pesquisa e armazenamento vetorial simples, escalável e de alto desempenho para ajudar os desenvolvedores a criar experiências de pesquisa aumentada em ML e aplicativos generativos de IA sem precisar gerenciar a infraestrutura de banco de dados vetoriais. Os casos de uso de coleções de pesquisa vetorial incluem pesquisa de imagens, pesquisa de documentos, recuperação de músicas, recomendação de produtos, pesquisa de vídeo, pesquisa baseada em localização, detecção de fraudes e detecção de anomalias.

Amazon Redshift

O Amazon Redshift é o armazém de dados em nuvem mais usado. Isso torna rápido, simples e econômico analisar todos os seus dados usando SQL padrão e suas ferramentas de Business Intelligence (BI) existentes. Ele permite que você execute consultas analíticas complexas em terabytes a petabytes de dados estruturados e semiestruturados, usando otimização sofisticada de consultas, armazenamento colunar em armazenamento de alto desempenho e conclusão massiva de consultas paralelas. A maioria dos resultados volta em segundos. Você pode começar aos poucos, por apenas 0,25 USD por hora, sem compromissos, e expandir para petabytes de dados por 1.000 USD por terabyte por ano, menos de um décimo do custo das soluções locais tradicionais.

Amazon Redshift sem servidor

O Amazon Redshift Serverless facilita a execução e a escalabilidade de análises sem precisar gerenciar sua infraestrutura de armazém de dados. Desenvolvedores, cientistas de dados e analistas podem trabalhar em bancos de dados, armazéns de dados e lagos de dados para criar aplicativos de relatórios e painéis, realizar análises quase em tempo real, compartilhar e colaborar em dados e criar e treinar modelos de aprendizado de máquina (ML). Transforme grandes quantidades de dados em insights em segundos. O Amazon Redshift Serverless provisiona automaticamente e escala de forma inteligente a capacidade do armazém de dados para oferecer desempenho rápido até mesmo para as cargas de trabalho mais exigentes e imprevisíveis, e você paga somente pelo que usa. Basta carregar dados e começar a consultar imediatamente no Amazon Redshift Query Editor ou em sua ferramenta de business intelligence (BI) favorita e continuar aproveitando a melhor relação preço/desempenho e os recursos SQL familiares em easy-to-use um ambiente de administração zero.

QuickSight

QuickSighté um serviço de business intelligence (BI) rápido e baseado em nuvem que facilita a entrega de insights para todos em sua organização. QuickSight permite criar e publicar painéis interativos que podem ser acessados a partir de navegadores ou dispositivos móveis. Você pode incorporar painéis em seus aplicativos, fornecendo aos seus clientes análises poderosas de autoatendimento. QuickSight escalável facilmente para dezenas de milhares de usuários sem nenhum software para instalar, servidores para implantar ou infraestrutura para gerenciar.

AWS Clean Rooms

AWS Clean Roomsajuda as empresas e seus parceiros a analisar e colaborar com mais facilidade e segurança em seus conjuntos de dados coletivos, sem compartilhar ou copiar os dados subjacentes uns dos outros. Com isso AWS Clean Rooms, os clientes podem criar uma sala limpa de dados segura em minutos e colaborar com qualquer outra empresa Nuvem AWS para gerar insights exclusivos sobre campanhas publicitárias, decisões de investimento e pesquisa e desenvolvimento.

AWS Data Exchange

AWS Data Exchangefacilita a localização, a assinatura e o uso de dados de terceiros na nuvem. Os provedores de dados qualificados incluem marcas líderes da categoria, como a Reuters, que organiza dados de mais de 2,2 milhões de notícias exclusivas por ano em vários idiomas; a Change Healthcare, que processa e anonimiza mais de 14 bilhões de transações de saúde e 1 trilhão de dólares em reclamações anualmente; a Dun & Bradstreet, que mantém um banco de dados de mais de 330 milhões de registros comerciais globais; e a Foursquare, cujos dados de localização são derivados de 220 milhões de consumidores únicos e incluem mais de 60 milhões de locais comerciais globais.

Depois de assinar um produto de dados, você pode usar a AWS Data Exchange API para carregar dados diretamente no Amazon S3 e depois analisá-los com uma ampla variedade AWS de serviços de análise e ML. Por exemplo, seguradoras imobiliárias podem assinar dados para analisar padrões climáticos históricos para calibrar os requisitos de cobertura de seguro em diferentes regiões geográficas; restaurantes podem assinar dados populacionais e de localização para identificar regiões ideais para expansão; pesquisadores acadêmicos podem conduzir estudos sobre mudanças climáticas assinando dados sobre emissões de dióxido de carbono; e profissionais de saúde podem assinar dados agregados de ensaios clínicos históricos para acelerar suas atividades de pesquisa.

Para provedores de dados, AWS Data Exchange facilita o alcance de milhões de AWS clientes que migram para a nuvem, eliminando a necessidade de criar e manter uma infraestrutura para armazenamento, entrega, cobrança e titulação de dados.

AWS Data Pipeline

AWS Data Pipelineé um serviço web que ajuda você a processar e mover dados de forma confiável entre diferentes serviços de AWS computação e armazenamento, bem como fontes de dados locais, em intervalos especificados. Com isso AWS Data Pipeline, você pode acessar regularmente seus dados onde eles estão armazenados, transformá-los e processá-los em grande escala e transferir com eficiência os resultados para serviços da AWS, como Amazon S3, Amazon RDS,Amazon DynamoDB e Amazon EMR.

AWS Data Pipeline ajuda você a criar facilmente cargas de trabalho complexas de processamento de dados que são tolerantes a falhas, repetíveis e altamente disponíveis. Você não precisa se preocupar em garantir a disponibilidade dos recursos, gerenciar dependências entre tarefas, repetir falhas transitórias ou tempos limite em tarefas individuais ou criar um sistema de notificação de falhas. AWS Data Pipeline também permite mover e processar dados que antes estavam trancados em silos de dados locais.

AWS Resolução de entidades

AWS O Entity Resolution é um serviço que ajuda você a combinar e vincular registros relacionados armazenados em vários aplicativos, canais e armazenamentos de dados sem criar uma solução personalizada. Usando técnicas flexíveis e configuráveis de ML e baseadas em regras, a AWS Entity Resolution pode remover registros duplicados, criar perfis de clientes conectando diferentes interações com clientes e personalizar experiências em campanhas de publicidade e marketing, programas de fidelidade e comércio eletrônico. Por exemplo, você pode criar uma visão unificada das interações com os clientes vinculando eventos recentes, como cliques em anúncios, abandono de carrinho e compras, a uma ID de correspondência exclusiva.

AWS Glue

AWS Glueé um serviço totalmente gerenciado de extração, transformação e carregamento (ETL) que facilita aos clientes preparar e carregar seus dados para análise. Você pode criar e executar uma tarefa de ETL com alguns cliques no. AWS Management Console Você simplesmente aponta AWS Glue para seus dados armazenados AWS, AWS Glue descobre seus dados e armazena os metadados associados (como definição de tabela e esquema) no. AWS Glue Data Catalog Depois de catalogados, seus dados podem ser imediatamente pesquisados, consultados e disponibilizados para ETL.

AWS Glue Os mecanismos de integração de dados fornecem acesso aos dados usando Apache PySpark, Spark e Python. Com a adição do AWS Glue for Ray, você pode escalar ainda mais suas cargas de trabalho usando o Ray, uma estrutura computacional unificada de código aberto.

AWS Glue A qualidade de dados pode medir e monitorar a qualidade dos dados de data lakes, data warehouses e outros repositórios de dados baseados no Amazon S3. Ele calcula estatísticas automaticamente, recomenda regras de qualidade e pode monitorar e alertar você quando detecta dados perdidos, obsoletos ou incorretos. Você pode acessá-lo nas AWS Glue Data Catalog e nas tarefas de AWS Glue Data Catalog ETL.

AWS Lake Formation

AWS Lake Formationé um serviço que facilita a configuração de um data lake seguro em dias. Um data lake é um repositório centralizado, controlado e seguro que armazena todos os dados, tanto em sua forma original quanto preparados para análise. Um data lake permite que você desfaça monopólios de dados e combine diferentes tipos de análises para obter insights e orientar decisões de negócios melhores.

No entanto, configurar e gerenciar lagos de dados atualmente envolve muitas tarefas manuais, complicadas e demoradas. Esse trabalho inclui carregar dados de diversas fontes, monitorar esses fluxos de dados, configurar partições, ativar a criptografia e gerenciar chaves, definir tarefas de transformação e monitorar sua operação, reorganizar dados em um formato colunar, definir configurações de controle de acesso, desduplicar dados redundantes, combinar registros vinculados, conceder acesso a conjuntos de dados e auditar o acesso ao longo do tempo.

Criar um data lake com o Lake Formation é tão simples quanto definir onde seus dados residem e quais políticas de acesso e segurança você deseja aplicar. Em seguida, o Lake Formation coleta e cataloga dados de bancos de dados e armazenamento de objetos, move os dados para seu novo data lake do Amazon S3, limpa e classifica dados usando algoritmos de ML e protege o acesso aos seus dados confidenciais. Seus usuários podem então acessar um catálogo centralizado de dados que descreve os conjuntos de dados disponíveis e seu uso adequado. Seus usuários então aproveitam esses conjuntos de dados com sua escolha de serviços de análise e ML, como Amazon EMR para Apache Spark, Amazon Redshift, Amazon Athena, AI e. SageMaker QuickSight

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

O Amazon Managed Streaming for Apache Kafka (Amazon MSK) é um serviço totalmente gerenciado que facilita a criação e a execução de aplicativos que usam o Apache Kafka para processar dados de streaming. O Apache Kafka é uma plataforma de código aberto para criar pipelines e aplicativos de dados de streaming em tempo real. Com o Amazon MSK, você pode usar o Apache Kafka APIs para preencher lagos de dados, transmitir alterações de e para bancos de dados e potencializar aplicativos de ML e análise.

Os clusters Apache Kafka são difíceis de configurar, escalar e gerenciar na produção. Ao executar o Apache Kafka sozinho, você precisa provisionar servidores, configurar o Apache Kafka manualmente, substituir os servidores quando eles falham, orquestrar patches e atualizações do servidor, arquitetar o cluster para obter alta disponibilidade, garantir que os dados sejam armazenados e protegidos de forma durável, configurar o monitoramento e os alarmes e planejar cuidadosamente os eventos de escalabilidade para suportar as alterações de carga. O Amazon MSK facilita a criação e a execução de aplicativos de produção no Apache Kafka sem precisar da experiência em gerenciamento de infraestrutura do Apache Kafka. Isso significa que você gasta menos tempo gerenciando a infraestrutura e mais tempo criando aplicativos.

Com alguns cliques no console do Amazon MSK, você pode criar clusters Apache Kafka altamente disponíveis com definições e configurações baseadas nas melhores práticas de implantação do Apache Kafka. O Amazon MSK provisiona e executa automaticamente seus clusters do Apache Kafka. O Amazon MSK monitora continuamente a integridade do cluster e substitui automaticamente os nós não íntegros sem tempo de inatividade do seu aplicativo. Além disso, o Amazon MSK protege seu cluster Apache Kafka criptografando dados em repouso.