データレイクのライフサイクル - Amazon Connect データレイクのベストプラクティス

データレイクのライフサイクル

データレイクの構築には、通常、次の 5 つの段階があります。

  • ストレージのセットアップ

  • データ移動

  • データの準備とカタログ化

  • セキュリティポリシーの設定

  • 消費可能なデータに加工

次の図は、AWS 分析および人工知能/機械学習 (AI/ML) サービスと統合された Amazon Connect コンタクトセンターのデータレイクアーキテクチャの概略図を示しています。次のセクションでは、この図に示されているシナリオと AWS サービスについて説明します。

AWS 分析と AI/ML サービスを備えた Amazon Connect コンタクトセンターのデータレイクを示す図

AWS 分析と AI/ML サービスを備えた Amazon Connect コンタクトセンターのデータレイク

ストレージ

Amazon S3 は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、パフォーマンスを提供するオブジェクトストレージサービスです。S3 は 99.999999999% の耐久性と 99.99% の可用性を実現し、強い一貫性と無制限のデータストレージをグローバルに提供します。クロスリージョンレプリケーション (CRR) を使用すると、複数のリージョンの S3 バケット間でデータをコピーして、規制コンプライアンスや低レイテンシーの要件を満たすことができます。S3 は、パフォーマンスと運用効率の向上のため、自動的にスループットをスケーリングします。

S3 バケットとオブジェクトはプライベートで、デフォルトではすべてのリージョンに対してグローバルに S3 Block Public Access が有効になっています。バケットポリシーAWS Identity and Access Management (IAM) ポリシー、アクセスコントロールリスト (ACL) を使用して、S3 リソースの集中アクセス制御を設定できます。S3 のアクセスアナライザーを使用すると、パブリックアクセスが可能なすべてのバケットを評価および識別できます。オブジェクトのプレフィックスとタグ付けにより、アクセス制御、ストレージ階層化、レプリケーションルールをオブジェクトレベルで細かく管理できます。

AWS CloudTrail は、すべての API コールを S3 サーバーアクセスログに記録します。S3 インベントリは、データレプリケーションと暗号化のステータスを監査し、報告します。

S3 Intelligent-Tiering は、アクセスパターンが変化したときに、アクセス頻度が高い層と低い層の間でデータを移動することで、パフォーマンスや運用上のオーバーヘッドなしに、自動的にコストを削減します。S3 Glacier Deep Archive は、アクセスが稀で、長期保存が必要なオブジェクトのストレージコストを最大 95% 削減します。

Apache Parquet や Optimized Row Columnar (ORC) などの列形式でデータを保存することで、Amazon Athena を使用したクエリを高速化し、処理コストを削減できます。Parquet による Snappy などの圧縮オプションにより、必要な容量とストレージコストが削減されます。

S3 SelectS3 Glacier Select を使用することで、オブジェクトを別のデータストアに移動することなく、構造化クエリ言語 (SQL) 式を使用してオブジェクトメタデータをクエリすることができます。

S3 バッチオペレーションは、オブジェクトのメタデータやプロパティの更新、ストレージ管理タスクの実行、アクセス制御の変更、S3 Glacier からのアーカイブオブジェクトの復元など、S3 オブジェクトの一括操作を自動化します。

S3 アクセスポイントは、異なるチームやアプリケーションによる S3 上の共有データへのアクセスを簡素化し、集約します。各アクセスポイントは、1 つのバケットに対して一意の DNS 名に関連付けられます。サービスコントロールポリシー (SCP) を作成して、Amazon Virtual Private Cloud (Amazon VPC) へのアクセスポイントを制限し、プライベートネットワーク内のデータを分離できます。

S3 Transfer Acceleration を使用すると、クライアント環境と S3 バケットの間で、長距離のファイルを転送できるようになります。

データレイクが拡大すると、S3 ストレージレンズによって、オブジェクトストレージの使用状況とアクティビティの傾向を組織全体で可視化し、コストと運用上のオーバーヘッドを削減するための実用的な推奨事項を提供します。

取り込み

AWS では、既存のデータを一元化されたデータレイクに移行するための包括的なデータ転送サービスポートフォリオを提供しています。Amazon Storage Gateway と AWS Direct Connect は、ハイブリッドクラウドストレージのニーズに対応できます。オンラインのデータ転送には、AWS DataSyncAmazon Kinesis の使用を検討してください。オフラインのデータ転送には AWS Snow Family を使用します。

  • AWS Storage Gateway は、テープライブラリのクラウドストレージへの置換、クラウドストレージベースのファイル共有の提供、低レイテンシーのキャッシュの作成によるオンプレミス環境から AWS のデータアクセスにより、オンプレミス環境を AWS ストレージに拡張します。

  • AWS Direct Connect により、オンプレミス環境と AWS 間のプライベート接続を確立することで、ネットワークコストの削減、スループットの向上、一貫性のあるネットワークエクスペリエンスを利用できます。

  • AWS DataSync は、ネットワークの使用率を最適化しながら、何百万ものファイルを S3、Amazon Elastic File System (Amazon EFS)、または Amazon FSx for Windows File Server に転送できます。

  • Amazon Kinesis により、安全な方法でストリーミングデータをキャプチャして S3 に読み込むことができます。Amazon Data Firehose は、リアルタイムのストリーミングデータを S3 に直接配信する、フルマネージド型サービスです。Firehose は、ストリーミングデータの量とスループットに合わせて自動的にスケーリングするため、継続的な管理は不要です。S3 にデータを保存する前に、Firehose 内の圧縮、暗号化、データバッチ処理、または AWS Lambda 関数を使用してストリーミングデータを変換できます。Firehose の暗号化では、S3 サーバー側の暗号化を AWS Key Management Service (AWS KMS) でサポートします。または、カスタムキーを使用してデータを暗号化することもできます。Firehose では、複数の受信レコードを 1 つの S3 オブジェクトとして連結して配信できるため、コスト削減とスループットの最適化を実現できます。

    AWS Snow Family では、オフラインのデータ転送メカニズムを提供します。AWS Snowball Edge は、データ収集、処理、移行向けの、持ち運び可能で耐久性の高いエッジコンピューティングデバイスが利用できます。エクサバイトスケールのデータ転送の場合、AWS Snowmobile を使用して大量のデータをクラウドに移動できます。

    DistCP により、Hadoop エコシステム内のデータを移動するための分散コピー機能が利用できます。S3DiscTCP は、DistCp の拡張機能で、Hadoop Distributed File System (HDFS) と S3 間のデータ移動に最適化されています。このブログでは、S3DistCp を使用して HDFS と S3 の間でデータを移動する方法について説明します。

カタログ化

データレイクアーキテクチャに共通する課題の 1 つは、データレイクに保存されている未加工データの内容を監視できないことです。組織では、キュレーションを行わずに大量のデータを生み出すという問題を回避するために、ガバナンス、セマンティクスの一貫性、アクセス制御を必要としています。

AWS Lake Formation は、データを自動的に分類し、定義、スキーマ、メタデータを中央データカタログに保存することで、AWS Glue 経由のデータインジェストを管理できます。Lake Formation には、データ品質向上のため、重複排除や一致レコードを検索するための機械学習機能が組み込まれています。分析を高速化するため、Lake Formation は S3 データレイクにデータを保存する前に、そのデータを Apache Parquet と ORC に変換します。テーブルレベルや列レベルのアクセス制御を含むアクセスポリシーの定義や、保存時にデータ暗号化を行うことができます。一貫したセキュリティの適用により、ユーザーは選択した分析サービスや機械学習サービスを使用して、キュレーションおよび一元化されたデータセットにアクセスし、分析できます。

AWS Glue DataBrew は、視覚的なデータ準備ツールで、データ所有者、対象分野の専門家、あらゆるスキルを持つユーザーがデータ準備プロセスに参加できるようにします。コードを記述しなくても、250 を超える事前構築済みの変換から選択し、データ異常のフィルタリング、標準形式へのデータの変換、無効な値の修正など、データ準備タスクを自動化できます。変換されたデータは、高度な分析や機械学習プロジェクトですぐに使用できます。

セキュリティ

Amazon Connect は、Amazon Connect インスタンスレベルでのデータアクセスを許可するために、データを AWS アカウント ID と Amazon Connect インスタンス ID で分離します。

Amazon Connect は、Amazon Connect インスタンス固有の期限付きキーを使用して、保存中の個人を特定できる情報 (PII) の連絡先データと顧客プロファイルを暗号化します。S3 サーバー側の暗号化では、AWS アカウントごとに一意の KMS データキーを使用して、保存中の音声録音とチャット録音の両方を保護します。S3 バケット内の通話録音へのユーザーアクセスを設定し、録音を再生または削除したユーザーを追跡するなど、セキュリティ制御を確実に維持できます。Amazon Connect は、サービス所有の KMS キーで顧客の声紋を暗号化し、カスタマー ID を保護します。Amazon Connect と他の AWS サービス、または外部アプリケーションとの間で交換されるすべてのデータは、業界標準の Transport Layer Security (TLS) 暗号化を使用して、転送中は常時暗号化されます。

データレイクを保護するには、データアクセスの許可と使用を確実に行うためのきめ細かな制御が必要です。S3 リソースはプライベートで、デフォルトではリソース所有者のみがアクセスできます。リソース所有者は、リソースベースまたはアイデンティティベースの IAM ポリシーを組み合わせて作成し、S3 バケットとオブジェクトにアクセス権限を付与して管理できます。バケットポリシーや ACL などのリソースベースのポリシーは、リソースにアタッチされます。一方で、アイデンティティベースのポリシーは、AWS アカウントの IAM ユーザー、グループ、またはロールにアタッチされます。

ほとんどのデータレイク環境では、データレイクユーザーのリソースアクセス管理とサービス許可を簡素化するために、アイデンティティベースのポリシーを推奨しています。AWS アカウントで IAM ユーザー、グループ、ロールを作成し、それらを S3 リソースへのアクセスを許可するアイデンティティベースのポリシーに関連付けることができます。

AWS Lake Formation アクセス許可モデルは、IAM アクセス許可と連動してデータレイクアクセスを管理します。Lake Formation のアクセス許可モデルは、データベース管理システム (DBMS) スタイルの GRANT または REVOKE メカニズムを使用しています。アイデンティティベースのポリシーを含む IAM アクセス許可 例えば、ユーザーはデータレイクリソースにアクセスする前に、IAM と Lake Formation の両方のアクセス許可が付与される必要があります。

AWS CloudTrail は、CloudTrail イベント履歴にあるリクエスタの IP アドレスと ID、およびリクエストの日付と時刻が含む Amazon Connect API コールを追跡します。AWS CloudTrail 証跡を作成すると、S3 バケットに AWS CloudTrail ログを継続的に配信できます。

Amazon Athena ワークグループでは、リソースベースのポリシーを使用して、クエリの実行を分離し、ユーザー、チーム、またはアプリケーションごとにアクセスを制御できます。ワークグループのデータ使用量を制限することで、コスト管理を強化できます。

モニタリング

オブザーバビリティは、コンタクトセンターとデータレイクの可用性、信頼性、パフォーマンスを確保するために不可欠です。Amazon CloudWatch は、リソースの使用状況、アプリケーションのパフォーマンス、運用の健全性についてシステム全体で可視化します。Amazon Connect 問い合わせフローから、関連情報を Amazon CloudWatch に記録し、運用パフォーマンスが事前定義されたしきい値を下回った場合にリアルタイム通知を作成します。

Amazon Connect は、Amazon CloudWatch メトリクスとして、インスタンスの使用状況データを 1 分間隔で送信します。Amazon CloudWatch メトリクスのデータ保持期間は 2 週間です。ログの保持要件とライフサイクルポリシーを早期に定義し、規制コンプライアンスを確保して、長期的なデータアーカイブのためのコスト削減を実現します。

Amazon CloudWatch Logs を使用すると、簡単な方法でログデータをフィルタリングし、コンプライアンス違反イベントを特定してインシデント調査や迅速な解決を行うことができます。問い合わせフローをカスタマイズして、リスクの高い発信者や不正行為の可能性があるアクティビティを検出できます。例えば、事前定義済みの拒否リストに登録されている受信連絡先の接続を切断できます。

分析

記述的、予測的、リアルタイム分析ポートフォリオに基づいて構築されたコンタクトセンターのデータレイクは、有意義な洞察を引き出し、重要なビジネス上の質問に対応しやすくなります。

データが S3 データレイクに格納されると、Amazon Athena や Amazon QuickSight などの目的に応じた分析サービスを、手間のかかる抽出、変換、ロード (ETL) 作業を行うことなく、幅広いユースケースで使用できます。また、希望する分析プラットフォームを S3 データレイクに導入できます。Amazon Athena、AWS Glue、Amazon QuickSight を使用して Amazon Connect データを分析する方法については、このブログを参照してください。

拡張性の高いデータウェアハウスソリューションを実現するため、Amazon Connect でデータストリーミングを有効にして、Amazon Kinesis 経由で Amazon Redshift に問い合わせレコードをストリーミングできます。

機械学習

データレイクを構築すると、コンタクトセンターのアーキテクチャに新たなパラダイムをもたらし、機械学習 (ML) 機能を使用して、強化およびパーソナライズされたカスタマーサービスを提供できるようになります。

従来の ML 開発は、複雑で費用のかかるプロセスです。AWS では、あらゆる ML プロジェクトやワークロードに対応する、高性能で費用対効果の高い、スケーラブルなインフラストラクチャと柔軟な ML サービスを幅広く提供しています。

Amazon SageMaker AI は、データサイエンティストや開発者がコンタクトセンターのユースケース向けの ML モデルを大規模に構築、トレーニング、デプロイ可能なフルマネージドサービスです。データサイエンティストは、データの準備に自身の時間の 80% を要しています。Amazon SageMaker AI Data Wrangler は、300 種類以上の組み込みデータ変換を使用することで、コードを記述することなく、さまざまなデータソースからのデータ準備と特徴量エンジニアリングを簡略化および迅速化します。Amazon SageMaker AI Feature Store に標準化された特徴量を格納することで、再利用したり、組織の他のユーザーと共有したりできます。

顧客離れを防ぐには、カスタマージャーニーにおける摩擦を減らすことが不可欠です。コンタクトセンターにインテリジェンスを加えるには、Amazon Lex の自動音声認識 (ASR) と自然言語理解 (NLU) 機能を使用して AI を活用した会話型チャットボットを構築できます。顧客は、人間のエージェントと話すことなく、チャットボットを介してパスワードのリセット、口座の残高確認、予約などの作業をセルフサービスで実行できます。コンタクトセンターのよくある質問 (FAQ) を自動化するには、Amazon Lex と Amazon Kendra を使用して質疑応答 (Q&A) チャットボットを構築できます。Amazon CloudWatch Logs でテキストのロギングを有効にして、音声入力を S3 に保存し、会話の流れを分析して、会話設計を改善することで、ユーザーエンゲージメントを高めることができます。

全体的なサービス品質を向上させるには、発信者とエージェントの会話パターンを理解することが不可欠です。Kinesis Video Stream 経由で音声録音を Amazon Transcribe にストリーミングして音声認識する方法、Amazon Comprehend を使用して音声をテキストに変換する方法、音声をテキストに変換してトランスクリプトのセンチメント分析を実行する方法については、このブログを参照してください。

海外展開している組織の場合、Amazon Polly または Amazon Translate を言語翻訳に使用して、Amazon Connect で多言語の音声エクスペリエンスを構築できます。

従来の財務計画ソフトウェアは、一貫性のない傾向や関連変数を相関させることなく、過去の時系列データに基づいて予測を作成します。Amazon Forecast では、機械学習を使用して時系列データと、製品の特徴や店舗の場所などの他の変数との潜在的な関係を発見する精度が最大 50% 向上しています。機械学習の経験がなくても、S3 バケット内の時系列と関連データを Amazon Forecast に提供することで、エージェントの必要人数や在庫予測を簡単に作成できます。AWS KMS を使用して機密コンテンツを暗号化し、IAM ポリシーを使用して Amazon Forecast へのアクセスを制御できます。Amazon Forecast は、可用性の高い環境でカスタム機械学習モデルをトレーニングし、ホストします。インフラストラクチャや複雑な機械学習プロセスを管理しなくても、精度の高いビジネス予測を迅速に生成できます。

Amazon Connect は、通話の発信元を示す音声デバイスの地理的位置、固定電話や携帯電話などの電話機の種類、通話が経由したネットワークセグメントの数、その他の通話の発信情報など、通信会社からの通話属性を提供します。フルマネージド型の Amazon Fraud Detector を使用すると、データセットを Amazon Connect のコール属性と組み合わせることで、不正行為の可能性があるアクティビティを特定する ML モデルを作成できます。例えば、問い合わせフローをカスタマイズして、不正の可能性がある通話を専門のエージェントにインテリジェントにルーティングできます。