AWS Analytics category icon 分析 - 亚马逊 Web Services 概述

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Analytics category icon 分析

Amazon Athena

Amazon Athena 是一种交互式查询服务,方便使用标准 SQL 分析 Amazon S3 的数据。Athena 没有服务器,没有要管理的基础设施,只需为运行的查询付费。

Athena 很容易使用。只需指向 Amazon S3 中的数据,定义架构,然后开始使用标准 SQL 进行查询即可。大多数结果会在几秒钟内送达。借助 Athena,无需复杂的提取、转换和加载 (ETL) 作业即可为分析做好数据准备。这使得任何具有 SQL 技能的人都可以轻松快速分析大规模数据集。

Athena out-of-the-box AWS Glue Data Catalog与集成,允许您跨各种服务创建统一的元数据存储库,抓取数据源以发现架构,使用新的和修改过的表和分区定义填充您的目录,以及维护架构版本控制。

Amazon CloudSearch

Amazon CloudSearch 是一项托管服务 AWS Cloud ,可让您以简单且经济实惠的方式为您的网站或应用程序设置、管理和扩展搜索解决方案。Amazon CloudSearch 支持 34 种语言和热门搜索功能,例如突出显示、自动完成和地理空间搜索。

Amazon DataZone

Amazon DataZone 是一项数据管理服务,您可以使用它来发布数据,并通过您的个性化 Web 应用程序将其提供给业务数据目录。无论数据存储在何处,无论存储在何处(在本地还是 Salesforce AWS等 SaaS 应用程序)中,您都可以更安全地访问数据。亚马逊 DataZone 简化了您在亚马逊 Redshift、Amazon A AWS Glue thena、、和亚马逊等 AWS 服务上的体验。 AWS Lake Formation QuickSight

Amazon EMR

亚马逊 EMR 是业界领先的云大数据平台,用于使用 A pache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hidi 和 P resto 等开源工具处理大量数据。Amazon EMR 可自动执行耗时的任务,例如配置容量和调整集群,从而轻松设置、操作和扩展您的大数据环境。借助 Amazon EMR,您可以以不到传统本地解决方案一半的成本运行 PB 级分析,速度比标准 Apache Spark 快 3 倍以上。你可以在亚马逊 EC2 实例、亚马逊 Elastic Kubernetes Service(Amazon EKS)集群上运行工作负载,也可以使用亚马逊 EMR 在本地运行工作负载。 AWS Outposts

Amazon FinSpace

Amazon FinSpace是一项专为金融服务行业 (FSI) 构建的数据管理和分析服务。 FinSpace 将查找和准备 PB 级财务数据以准备分析所花费的时间从几个月缩短到几分钟。

金融服务组织分析来自内部数据存储的数据,例如投资组合、精算和风险管理系统,以及来自第三方数据馈送的PB级数据,例如证券交易所的历史证券价格。找到正确的数据、获得以合规方式访问数据的权限以及为分析做好准备可能需要几个月的时间。

FinSpace 消除了构建和维护用于财务分析的数据管理系统的繁重工作。使用 FinSpace,您可以收集数据并按资产类别、风险分类或地理区域等相关业务概念对其进行分类。 FinSpace 可以根据您的合规性要求在整个组织中轻松发现和共享数据。您可以在一个地方定义数据访问策略并 FinSpace 强制执行这些策略,同时保留审计日志,以便进行合规性和活动报告。 FinSpace 还包括一个包含 100 多个函数的库,例如时间条和布林带,供您准备数据以供分析。

Amazon Kinesis

Amazon Kinesis 可以轻松收集、处理和分析实时流式数据,因此您可以及时获得见解并对新信息做出快速反应。Amazon Kinesis 提供了经济高效地处理任何规模的流数据的关键功能,并且可以灵活地选择最适合您的应用程序要求的工具。借助 Amazon Kinesis,您可以为机器学习 (ML)、分析和其他应用程序提取实时数据,例如视频、音频、应用程序日志、网站点击流和物联网遥测数据。Amazon Kinesis 使您能够在数据到达时对其进行处理和分析,并立即做出响应,而不必等到收集完所有数据后再开始处理。

亚马逊 Kinesis 目前提供四种服务:Firehose、适用于 Apache Flink 的托管服务、Kinesis Data Streams 和 Kinesis Video Streams。

Amazon Data Firehose

Amazon Data Firehose 是将流数据可靠地加载到数据存储和分析工具的最简单方法。它可以捕获、转换流数据并将其加载到 Amazon S3、Amazon Redshift、Amazon S OpenSearch ervice 和 Splunk 中,从而使用你目前已经在使用的现有商业智能工具和仪表板实现近乎实时的分析。它是一项完全托管的服务,可自动扩展以匹配您的数据吞吐量,并且无需持续管理。它还可以在加载数据之前对其进行批处理、压缩、转换和加密,从而最大限度地减少目的地使用的存储量并提高安全性。

您可以轻松地从中创建 Firehose 交付流 AWS Management Console,只需单击几下即可对其进行配置,然后开始将来自成千上万个数据源的数据发送到该流,以便持续加载到该流, AWS所有这些都只需几分钟即可完成。您还可以将传输流配置为在数据传输到 Amazon S3 之前,自动将传入的数据转换为列式格式,例如 Apache Parquet 和 Apache ORC,以实现经济高效的存储和分析。

适用于 Apache Flink 的亚马逊托管服务

适用于 Apache Flink 的亚马逊托管服务是分析流数据、获得切实可行的见解以及实时响应您的业务和客户需求的最简单方法。Amazon Apache Flink 托管服务降低了构建、管理流应用程序以及与其他 AWS 服务集成的复杂性。SQL 用户可以使用模板和交互式 SQL 编辑器轻松查询流数据或构建整个流应用程序。Java 开发人员可以使用开源 Java 库和 AWS 集成快速构建复杂的流媒体应用程序,以实时转换和分析数据。

适用于 Apache Flink 的 Amazon 托管服务负责处理持续运行查询所需的一切,并自动扩展以匹配传入数据的数量和吞吐率。

Amazon Kinesis Data Streams

Amazon Kinesis Dat a Streams 是一项可大规模扩展且经久耐用的实时数据流服务。Kinesis Data Streams 每秒可以持续捕获来自成千上万个来源(例如网站点击流、数据库事件流、财务交易、社交媒体源、IT 日志和位置跟踪事件)的千兆字节数据。收集的数据可在毫秒内获得,以实现实时分析用例,例如实时仪表板、实时异常检测、动态定价等。

Amazon Kinesis Video Streams

Amazon Kinesis V ideo Streams 可以轻松安全地将视频从联网设备流式传输 AWS 到分析、机器学习、播放和其他处理。Kinesis Video Streams 可自动配置和弹性扩展从数百万台设备摄取流视频数据所需的所有基础架构。它还可以持久地存储、加密和索引直播中的视频数据,并允许您通过 easy-to-use API 访问数据。Kinesis Video Streams 使您能够播放用于直播和点播观看的视频,并通过与 Amazon Rekognition Video 以及 Apache 和 OpenCV MxNet 等 TensorFlow机器学习框架的库集成,快速构建利用计算机视觉和视频分析的应用程序。

亚马逊 OpenSearch 服务

Amazon Service( OpenSearch OpenSearch 服务)可以轻松部署、保护、操作和扩展, OpenSearch 以便实时搜索、分析和可视化数据。借助 Amazon S OpenSearch ervice,您可以获得 easy-to-use API 和实时分析功能,为日志分析、全文搜索、应用程序监控和点击流分析等用例提供支持,并具有企业级可用性、可扩展性和安全性。该服务提供与开源工具(例如 OpenSearch 仪表板和 Logstash)的集成,用于数据摄取和可视化。它还与其他 AWS 服务无缝集成,例如亚马逊虚拟私有云(Amazon VPC)、AWS Key Management Service(AWS KMS)、A mazon Data Firehose AWS LambdaAWS Identity and Access Management (IAM)、A mazon Cognito CloudWatch亚马逊,因此您可以快速从原始数据转化为可操作的见解。

Amazon OpenSearch 无服务器

Amazon OpenSearch Serv erless 是亚马逊 OpenSearch 服务中的一个无服务器选项。作为开发人员,您可以使用 OpenSearch Serverless 运行 PB 级工作负载,而无需配置、管理和扩展集群。 OpenSearch 借助无服务器环境的简单性,您可以获得与 S OpenSearch ervice 相同的交互式毫秒响应时间。

Amazon OpenSearch Serverless 的矢量引擎增加了简单、可扩展且高性能的矢量存储和搜索功能,可帮助开发人员构建 ML 增强搜索体验和生成式 AI 应用程序,而无需管理矢量数据库基础架构。矢量搜索集合的用例包括图像搜索、文档搜索、音乐检索、产品推荐、视频搜索、基于位置的搜索、欺诈检测和异常检测。

Amazon Redshift

亚马逊 Redshift 是使用最广泛的云数据仓库。它使使用标准 SQL 和现有的商业智能 (BI) 工具快速、简单且经济实惠地分析所有数据。它允许您使用复杂的查询优化、高性能存储上的列式存储以及大规模并行查询完成,对数 TB 到 PB 的结构化和半结构化数据运行复杂的分析查询。大多数结果会在几秒钟内返回。您可以从小规模起步,每小时只需0.25美元,无需任何承诺,然后以每年每 TB 1,000美元的价格扩展到PB级数据,不到传统本地解决方案成本的十分之一。

Amazon Redshift Serverless

Amazon Redshift Serverles s 可以更轻松地运行和扩展分析,而无需管理数据仓库基础架构。开发人员、数据科学家和分析师可以跨数据库、数据仓库和数据湖来构建报告和仪表板应用程序,执行近乎实时的分析,共享和协作处理数据,以及构建和训练机器学习 (ML) 模型。在几秒钟内即可从大量数据转化为见解。Amazon Redshift Serverless 会自动配置和智能扩展数据仓库容量,即使是最苛刻和不可预测的工作负载也能提供快速性能,而且您只需为实际用量付费。只需在 Amazon Redshift 查询编辑器或您最喜欢的商业智能 (BI) 工具中加载数据并立即开始查询,即可在零管理的环境中继续享受最佳性价比和熟悉的 SQL 功能。 easy-to-use

Amazon QuickSight

Amazon QuickSight 是一项快速、基于云的商业智能 (BI) 服务,可让您轻松地向组织中的每个人提供见解。 QuickSight 允许您创建和发布可通过浏览器或移动设备访问的交互式仪表板。您可以将仪表板嵌入到应用程序中,为客户提供强大的自助服务分析。Amazon 无需安装任何软件、部署服务器或管理基础设施,即可 QuickSight 轻松扩展到成千上万的用户。

AWS Clean Rooms

AWS Clean Rooms帮助公司及其合作伙伴更轻松、更安全地对其集体数据集进行分析和协作,无需共享或复制彼此的基础数据。借 AWS Clean Rooms助,客户可以在几分钟内创建一个安全的数据整理室,并与任何其他公司合作,生成有关广告活动、投资决策和研发的独特见解。 AWS Cloud

AWS Data Exchange

AWS Data Exchange便于在云端查找、订阅和使用第三方数据。合格的数据提供商包括行业领先品牌,例如路透社,他们每年以多种语言从超过220万个独立新闻报道中整理数据;Change Healthcare,每年处理和匿名处理超过140亿笔医疗保健交易和1万亿美元的索赔;Dun & Bradstreet,他们维护着超过3.3亿份全球商业记录的数据库;以及Foursquare,其位置数据来自2.2亿独立消费者,包括超过6000万个全球商业场所。

订阅数据产品后,您可以使用 AWS Data Exchange API 将数据直接加载到 Amazon S3 中,然后使用各种分析和机器学习服务对其进行 AWS 分析。例如,财产保险公司可以订阅数据来分析历史天气模式,以校准不同地区的保险要求;餐馆可以订阅人口和位置数据以确定扩张的最佳区域;学术研究人员可以通过订阅二氧化碳排放数据来进行气候变化研究;医疗保健专业人员可以订阅历史临床试验的汇总数据以加快研究活动。

对于数据提供商而言, AWS Data Exchange 无需构建和维护用于数据存储、交付、计费和授权的基础架构,从而轻松接触迁移到云端的数百万 AWS 客户。

AWS Data Pipeline

AWS Data Pipeline是一项 Web 服务,可帮助您以指定的时间间隔在不同的 AWS 计算和存储服务以及本地数据源之间可靠地处理和移动数据。借助 AWS Data Pipeline,您可以定期访问存储数据、大规模转换和处理数据,并将结果高效地传输到AWS服务,例如Amazon S3、Amazon RDS 、AmazonDynamoDB和Amazon EM R。

AWS Data Pipeline 帮助您轻松创建容错、可重复且高度可用的复杂数据处理工作负载。您不必担心确保资源可用性、管理任务间依赖关系、重试单个任务中的临时故障或超时,或者创建失败通知系统。 AWS Data Pipeline 还允许您移动和处理以前锁定在本地数据孤岛中的数据。

AWS 实体分辨率

AWS E@@ ntity Resolut ion 是一项服务,可帮助您匹配和链接存储在多个应用程序、渠道和数据存储中的相关记录,而无需构建自定义解决方案。使用灵活、可配置的机器学习和基于规则的技术,Ent AWS ity Resolution可以删除重复的记录,通过关联不同的客户互动来创建客户档案,并在广告和营销活动、忠诚度计划和电子商务中个性化体验。例如,您可以将最近发生的事件(例如广告点击、购物车放弃和购买)关联到一个唯一的匹配 ID,从而创建统一的客户互动视图。

AWS Glue

AWS Glue是一项完全托管的提取、转换和加载 (ETL) 服务,可让客户轻松准备和加载数据进行分析。只需在中单击几下即可创建和运行 ETL 作业。 AWS Management Console您只需指 AWS Glue 向存储在中的数据 AWS,即可 AWS Glue 发现您的数据并将关联的元数据(例如表定义和架构)存储在中 AWS Glue Data Catalog。对您的数据进行编目后,即可立即搜索、查询,并可供ETL使用。

AWS Glue 数据集成引擎使用 Apache Spark 和 Python 提供对数据的访问。 PySpark新增 f AWS Glue or Ray 后,您可以使用开源统一计算框架 Ray 进一步扩展工作负载。

AWS Glue 数据质量可以衡量和监控基于 Amazon S3 的数据湖、数据仓库和其他数据存储库的数据质量。它会自动计算统计数据,推荐质量规则,并且可以在检测到缺失、过时或错误的数据时进行监控并提醒您。您可以在 AWS Glue Data Catalog 和 AWS Glue Data Catalog ETL 作业中访问它。

AWS Lake Formation

AWS Lake Formation是一项服务,可让您在几天之内轻松设置安全的数据湖。数据湖是一种集中的、策管的、安全存储库,用于存储所有数据,包括原始形式和准备进行分析的形式。数据湖能够打破数据孤岛,将不同类型的分析结合起来,获得信息并指导更好的业务决策。

但是,当今的数据湖的设置和管理涉及大量手动、复杂且耗时的任务。这项工作包括加载来自不同来源的数据、监控这些数据流、设置分区、开启加密和管理密钥、定义转换作业并监控其操作、将数据重组为列式格式、配置访问控制设置、对冗余数据进行重复数据删除、匹配链接记录、授予对数据集的访问权限以及随着时间的推移审计访问权限。

使用 Lake Formation 创建数据湖就像定义数据所在位置以及要应用的数据访问和安全策略一样简单。然后,Lake Formation 从数据库和对象存储中收集数据并对其进行分类,将数据移动到新的 Amazon S3 数据湖中,使用机器学习算法对数据进行清理和分类,并保护对敏感数据的访问权限。然后,您的用户可以访问一个集中的数据目录,该目录描述了可用数据集及其适当用法。然后,您的用户将这些数据集与他们选择的分析和机器学习服务结合起来,例如适用于 Apache Spark 的亚马逊 EMR、Amazon Redshift、Amazon Athena 和亚马逊。 SageMaker QuickSight

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

适用于 Apache Kafka 的亚马逊托管流 Kafka(亚马逊 MSK)是一项完全托管的服务,可让您轻松构建和运行使用 Apache Kafka 处理流数据的应用程序。Apache Kafka 是一个用于构建实时流数据管道和应用程序的开源平台。借助 Amazon MSK,您可以使用 Apache Kafka API 来填充数据湖、将更改流入和流出数据库,以及为机器学习和分析应用程序提供支持。

Apache Kafka 集群很难在生产环境中设置、扩展和管理。当你自己运行 Apache Kafka 时,你需要配置服务器,手动配置 Apache Kafka,在服务器出现故障时更换服务器,协调服务器补丁和升级,构建集群以实现高可用性,确保数据的持久存储和安全,设置监控和警报,并仔细计划扩展事件以支持负载变化。借助 Amazon MSK,您可以轻松地在 Apache Kafka 上构建和运行生产应用程序,而无需 Apache Kafka 基础设施管理专业知识。这意味着您可以花更少的时间管理基础架构,而将更多的时间花在构建应用程序上。

只需在 Amazon MSK 控制台中单击几下,即可创建高度可用的 Apache Kafka 集群,其设置和配置基于 Apache Kafka 的最佳部署实践。Amazon MSK 会自动配置和运行您的 Apache Kafka 集群。Amazon MSK 会持续监控集群运行状况,并自动替换运行状况不佳的节点,而不会使您的应用程序停机。此外,Amazon MSK 还通过加密静态数据来保护你的 Apache Kafka 集群。