分析 - Amazon Web Services の概要

分析

Amazon Athena

Amazon Athena は、標準 SQL を使用して Amazon S3 でデータを簡単に分析できるようにするインタラクティブなクエリサービスです。Athena はサーバーレスであるため、管理するインフラストラクチャはなく、実行したクエリに対する料金のみが支払い対象になります。

Athena は簡単に使用できます。操作は簡単で、Amazon S3 にあるデータを指定し、スキーマを定義して、標準的な SQL を使用してクエリの実行を開始するだけです。多くの場合は、数秒以内に結果が得られます。Athena を使用すると、データを分析用に準備するための複雑な抽出、変換、ロード (ETL) ジョブは不要になります。このため、誰でも、SQL のスキルを使って、大規模なデータセットを簡単に分析できます。

Athena は初期状態で AWS Glue Data Catalog と統合されており、さまざまなサービスにわたるメタデータの統合リポジトリを作成できます。データソースのクロールとスキーマの解析、新規および修正したテーブル定義とパーティション定義のカタログへの入力、スキーマのバージョニング保持が可能です。

Amazon CloudSearch

Amazon CloudSearch は AWS クラウドにおけるマネージド型サービスであり、ウェブサイトまたはアプリケーション向けの検索ソリューションを容易かつコスト効率良く設定、管理、スケールできます。Amazon CloudSearch は、34 言語をサポートし、ハイライト表示、自動入力、地理空間検索などの人気のある検索機能を備えています。

Amazon EMR

Amazon EMR は、業界をリードするビッグデータのクラウドプラットフォームであり、Apache SparkApache HiveApache HBaseApache FlinkApache HudiPresto などのオープンソースツールを活用して膨大な量のデータを処理できます。Amazon EMR では、キャパシティーのプロビジョニングやクラスターの調整など時間のかかるタスクを自動化することで、ビックデータ環境の設定、運用、スケーリングが簡単に行えます。EMR では、従来のオンプレミスソリューションの半分以下のコスト、標準的な Apache Spark の 3 倍以上の速さで、ペタバイト規模の分析を実行できます。ワークロードは、Amazon EC2 インスタンスまたは Amazon Elastic Kubernetes Service (EKS) クラスターで実行できます。AWS Outposts の EMR を使用してオンプレミスで実行することもできます。

Amazon FinSpace

Amazon FinSpace は、金融サービス業界 (FSI) 向けに構築されたデータ管理および分析サービスです。FinSpaceは、ペタバイト規模の財務データの検索と分析準備にかかる時間を数か月から数分に短縮します。

金融サービスを提供する組織は、ポートフォリオ、保険数理、リスク管理システムなどの内部データストアからのデータと、証券取引所からの過去の証券価格など、サードパーティーのデータフィードからのペタバイト規模のデータを分析します。適切なデータを見つけ、基準や規則に準拠した方法でデータにアクセスするためのアクセス許可を取得し、分析の準備をするのに数か月かかる場合があります。

FinSpace を使用すると、財務分析用にデータ管理システムを構築および維持するためのわずらわしい作業が不要になります。FinSpace では、資産クラス、リスク分類、地理的地域など、関連性のあるビジネスコンセプト別に、収集したデータをカタログ化します。FinSpace により、コンプライアンス要件に従ってデータを発見し組織全体で共有する作業が容易になります。データアクセスポリシーを 1 か所で定義すると、このポリシーが FinSpace によって適用されます。監査ログが保持されるため、コンプライアンスとアクティビティに関するレポート作成が可能になります。また、FinSpace には、分析用のデータを準備できるように、タイムバーやボリンジャーバンドなど 100 以上の関数から成るライブラリが含まれています。

Amazon Kinesis

Amazon Kinesis を使用すると、リアルタイムのストリーミングデータを簡単に収集、処理、分析できるため、タイムリーなインサイトを獲得し、新しい情報にすばやく対応できます。Amazon Kinesis は、アプリケーションの要件に最適なツールを柔軟に選択できるだけでなく、あらゆる規模のストリーミングデータをコスト効率良く処理するための主要機能を提供します。Amazon Kinesis を使うと、機械学習、分析、その他のアプリケーションに用いる動画、音声、アプリケーションログ、ウェブサイトのクリックストリーム、IoT テレメトリーデータをリアルタイムで取り込むことができます。Amazon Kinesis はデータを受信するとすぐに処理および分析を行うため、すべてのデータを収集するのを待たずに処理を開始して直ちに応答することが可能です。

Amazon Kinesis では現在、Kinesis Data Firehose、Kinesis Data Analytics、Kinesis Data Streams、Kinesis Video Streams の 4 つのサービスが提供されています。

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose は、ストリーミングデータをデータストアや分析ツールに確実にロードする最も簡単な方法です。ストリーミングデータをキャプチャし、変換して、Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Splunk などにロードすることができるため、現在既に使用している既存のビジネスインテリジェンスツールとダッシュボードによってほぼリアルタイムの分析を行うことが可能になります。データのスループットに合わせて自動的にスケールするフルマネージドサービスであるため、継続的な管理は不要です。ロード前にデータのバッチ処理、圧縮、変換、暗号化が行われるため、送信先でのストレージ量を最小化し、セキュリティを強化できます。

Firehose の配信ストリームは、AWS マネジメントコンソールから簡単に作成できます。数クリックで設定し、数十万のデータソースからストリームにデータを送信して継続的に AWS にロードを開始するまでわずか数分です。また、受信データが Amazon S3 に配信される前に Apache Parquet や Apache ORC などの列指向形式に変換されるように配信ストリームを設定すれば、コスト効率の良い方法で保存および分析できます。

Amazon Kinesis Data Analytics

Amazon Kinesis Data Analytics は、ストリーミングデータの分析、実用的なインサイトの取得、ビジネスやお客様のニーズへのリアルタイムでの対応を最も簡単に行えるサービスです。Amazon Kinesis Data Analytics を利用すると、ストリーミングアプリケーションを構築し、管理し、AWS のサービスと統合する作業がシンプルになります。SQL ユーザーは、テンプレートとインタラクティブな SQL エディタを使用して、ストリーミングデータに対するクエリの実行やストリーミングアプリケーション全体の構築を簡単に行うことができます。Java デベロッパーは、オープンソースの Java ライブラリと AWS の統合を使用してリアルタイムでデータを変換および分析することで、洗練されたストリーミングアプリケーションを迅速に構築することができます。

Amazon Kinesis Data Analytics では、クエリを実行するために必要なものすべてが継続的に処理され、着信データのボリュームおよびスループットレートと一致するように自動的にスケーリングされます。

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams – 大規模にスケール可能で、耐久性のあるリアルタイムデータストリーミングサービスです。KDS は、ウェブサイトのクリックストリーム、金融取引、ソーシャルメディアフィード、IT ログ、位置情報追跡イベントなど、何十万件ものソースから 1 秒あたり数ギガバイト単位で送られてくるデータを連続的にキャプチャして保存します。収集されたデータはミリ秒単位で利用でき、リアルタイムダッシュボード、リアルタイムの異常検出、ダイナミックプライシングといったリアルタイム分析のユースケースを実現します。

Amazon Kinesis Video Streams

Amazon Kinesis Video Streams では、コネクテッドデバイスから AWS クラウドに動画を安全にストリーミングし、分析、機械学習 (ML)、再生などの処理を簡単に行えるようになります。Kinesis Video Streams は、数百万ものデバイスからの動画のストリーミングデータを取り込むために必要なすべてのインフラストラクチャを、自動的にプロビジョンして、伸縮自在にスケールします。また、ストリーム内の動画データの耐久性に優れた保存、暗号化、インデックス作成を行い、使い勝手のよい API を介したデータへのアクセスも可能にします。Kinesis Video Streams を使用すると、ライブやオンデマンド視聴用の動画を再生したり、Amazon Rekognition Video との統合、および Apache MxNet、TensorFlow、OpenCV といった機械学習フレームワーク向けライブラリとの統合により、コンピュータビジョンと動画分析を活用するアプリケーションを迅速に構築することができます。

Amazon OpenSearch Service

Amazon OpenSearch Service (OpenSearch Service) は、OpenSearch のデプロイ、保護、操作、スケールを簡易化し、リアルタイムでの検索、分析、可視化を可能にします。Amazon OpenSearch Service では、企業レベルの可用性、スケーラビリティ、セキュリティを使用したログ分析、フルテキスト検索、アプリケーションモニタリング、クイックストリーム分析などのユースケースに動力を供給するリアルタイム分析能力と、使い勝手のよい API が提供されます。このサービスでは、データの取り込みと可視化のための、OpenSearch Dashboards や Logstash などのオープンソースツールとの統合も提供されます。さらに、Amazon Virtual Private Cloud (Amazon VPC)AWS Key Management Service (AWS KMS)Amazon Kinesis Data FirehoseAWS LambdaAWS Identity and Access Management (IAM)Amazon CognitoAmazon CloudWatch など、AWS の他のサービスともシームレスに統合できるため、raw データから実用的なインサイトを安全かつ素早く引き出すことができます。

Amazon OpenSearch Service は、Amazon Elasticsearch Service の後継サービスです。

Amazon Redshift

Amazon Redshift は、最も広く使用されているクラウドデータウェアハウスです。これにより、標準 SQL と既存のビジネスインテリジェンス (BI) ツールを使用して、すべてのデータを迅速、簡単、かつ費用効果の高い方法で分析できます。洗練されたクエリ最適化、高パフォーマンスストレージでの列指向ストレージ、および超並列クエリ実行を使用して、テラバイトからペタバイト単位にいたる構造化および半構造化データに対して複雑な分析クエリを実行できます。ほとんどの結果は数秒で返されます。Redshift を使用して、1 時間あたりわずか 0.25 USD で、コミットメントなしの小規模から始めて、年間 1 テラバイトあたり 1,000 USD の費用でペタバイト規模にスケールアウトできます。コストは従来のオンプレミスソリューションの 1/10 未満です。

Amazon QuickSight

Amazon QuickSight は、クラウド駆動の高速なビジネスインテリジェンス (BI) サービスです。組織のすべてのユーザーにインサイトを提供します。QuickSight を使用すると、ブラウザやモバイルデバイスからアクセスできるインタラクティブなダッシュボードを作成し、公開できます。ダッシュボードをアプリケーションに埋め込むことで、お客様にパワフルなセルフサービス分析を提供できます。QuickSight は、何万人ものユーザーに対して容易にスケーリングできます。ソフトウェアのインストールやサーバーのデプロイ、インフラストラクチャの管理は必要はありません。

AWS Data Exchange

AWS Data Exchange により、クラウド内にあるサードパーティーデータの検索、サブスクリプション、および利用が簡素化されます。認定データプロバイダーには、次のような業界をリードする企業が含まれます。ロイターは、年間 220 万件を超える独自のニュース記事のデータを複数の言語でキュレートしています。Change Healthcare は、ヘルスケア事業で年間 140 億以上の取引件数と年間 1 兆 USD の売上を持つ企業です。Dun& Bradstreet は、3 億 3 千万件以上のグローバルな業務記録のデータベースを管理しています。Foursquare は、2 億 2000 万人の固有の消費者から位置データを取得し、それらのデータには 6,000 万か所を超えるグローバルな商業施設が含まれています。

データ製品をサブスクリプションし、AWS Data Exchange API を使ってデータを直接 Amazon S3 にロードすると、さまざまな AWS 分析機械学習サービスでそれらのデータを分析できます。例えば不動産保険会社の場合、データをサブスクリプションして、過去の気象パターンを分析し、さまざまな地域の保険適用要件を調整できます。レストランであれば、人口と場所のデータをサブスクリプションして、拡張に最適な地域を特定できます。学術研究者であれば、二酸化炭素排出に関するデータをサブスクリプションすることで、気候変動に関する研究を行うことができます。医療従事者は、過去の臨床試験の集計データをサブスクリプションし、研究活動を加速することができます。

データプロバイダーの場合、AWS Data Exchange で、データストレージ、配信、請求、資格付与のためのインフラストラクチャを構築および管理する必要性を排除でき、クラウドに移行中の数百万人に及ぶ AWS のお客様に簡単にアクセスできます。

AWS Data Pipeline

AWS Data Pipeline は、AWS のコンピューティングサービス、ストレージサービス、オンプレミスのデータソース間で、指定間隔で確実にデータを移動し、処理できるウェブサービスです。AWS Data Pipeline を使用すると、保存場所にあるデータに定期的にアクセスし、大規模に変換と処理を行い、その結果を Amazon S3Amazon RDSAmazon DynamoDBAmazon EMR のような AWS のサービスに効率的に転送できます。

AWS Data Pipeline では、障害に強く繰り返し可能で可用性に優れた、複雑なデータ処理ワークロードを簡単に作成できます。リソースの可用性の保証、タスク間の依存関係の管理、タスクごとの一時的な失敗による再試行やタイムアウト、失敗通知システムの作成などについて心配する必要はありません。AWS Data Pipeline を使用すると、オンプレミスのデータ格納庫に保管されていたデータの移動と処理も可能になります。

AWS Glue

AWS Glue は、分析のためのデータの準備およびロードを用意にする、フルマネージド型の抽出、変換、ロード (ETL) サービスです。AWS マネジメントコンソールで数回クリックするだけで、ETL ジョブを作成および実行できます。AWS Glue では、AWS に保存されたデータを指定するだけで AWS Glue によるデータ検索が行われ、テーブル定義やスキーマなどの関連するメタデータが AWS Glue Data Catalog データカタログに保存されます。カタログに保存されたデータは、すぐに検索、クエリ、ETL で使用できます。

AWS Lake Formation

AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。データレイクは、元の形式と分析のために準備された形式の両方ですべてのデータを保存する、一元化およびキュレーションされ、保護されたリポジトリです。データレイクを使用すると、データサイロを取り除き、さまざまなタイプの分析を組み合わせてインサイトを得て、より良いビジネス上の決定へと導くことができます。

今日、データレイクのセットアップと管理には、手動で手間のかかる多くの作業が必要となります。このようなタスクの例としては、各種ソースからのデータのロード、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、冗長データの重複排除、連結レコードのマッチング、データセットへのアクセス許可付与、経時的なアクセス監査などが挙げられます。

Lake Formation を利用すれば、データが配置される場所と、適用するデータアクセスおよびセキュリティポリシーを定義するだけでデータレイクを作成できます。データレイクの作成後は、Lake Formation が、データベースおよびオブジェクトストレージからのデータの収集とカタログ化、新しく作成した Amazon S3 データレイクへのデータの移動、機械学習アルゴリズムを用いたデータのクリーンアップと分類、機密データに対するアクセスのセキュア化といった各種タスクを担います。その後、ユーザーは一元化されたデータカタログにアクセスできるようになります。このデータカタログは、利用可能なデータセットおよびその適切な使用方法を説明しています。ユーザーはこれらのデータセットを好みの分析や機械学習サービス (Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、SageMaker、Amazon QuickSight など) と併せて活用できます。

Amazon Managed Streaming for Apache Kafka (Amazon MSK)

Amazon Managed Streaming for Apache Kafka (Amazon MSK) は、ストリーミングデータの処理に Apache Kafka を使用するアプリケーションの構築と実行を容易に行える、フルマネージドサービスです。Apache Kafka は、リアルタイムのストリーミングデータパイプラインおよびアプリケーションを構築するためのオープンソースプラットフォームです。Amazon MSK では、Apache Kafka API を使用し、データレイクへの入力、データベースとの間での変更のストリーミング、機械学習および分析アプリケーションの強化を行うことができます。

Apache Kafka クラスターのセットアップ、スケーリング、稼働中の管理は容易ではありません。Apache Kafka をご自身で実行する場合は、サーバーのプロビジョニング、Apache Kafka の手動設定、障害が発生したサーバーの交換、サーバーのパッチとアップグレードの調整、可用性の高いクラスターの構築、データの永続的かつ安全な保存、監視とアラームのセットアップ、負荷の変化に対応するスケーリングイベントの慎重な計画をご自身で行う必要があります。Amazon MSK では、Apache Kafka のインフラストラクチャ管理に関する専門知識がなくても、Apache Kafka で本稼働アプリケーションを簡単に構築および実行できます。つまり、インフラストラクチャの管理に費やす時間が減り、アプリケーションの構築に充てることのできる時間が増えます。

With a few clicks in the Amazon MSK コンソールで数回クリックするだけで、Apache Kafka のデプロイベストプラクティスに基づく設定を備えた可用性の高い Apache Kafka クラスターを作成できます。Amazon MSK は、Apache Kafka クラスターを自動的にプロビジョニングして実行します。Amazon MSK は、クラスターのヘルス状態を継続的に監視し、異常なノードがあれば、アプリケーションへのダウンタイムを生じることなく自動的に交換します。さらに、Amazon MSK は保管中のデータを暗号化することで Apache Kafka クラスターを保護します。