資料湖生命週期 - Amazon Connect Data Lake 最佳實務

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料湖生命週期

建置資料湖通常包含五個階段:

  • 設定儲存體

  • 移動資料

  • 準備和編製資料目錄

  • 設定安全政策

  • 讓資料可供取用

下圖是 Amazon Connect 聯絡中心資料湖的高階架構圖,與 AWS 分析和人工智慧/機器學習 (AI/ML) 服務整合。下節涵蓋下圖所示的案例和 AWS 服務。

顯示具有 AWS 分析和 AI/ML 服務的 Amazon Connect 聯絡中心資料湖的圖表

Amazon Connect 聯絡中心資料湖搭配 AWS 分析和 AI/ML 服務

儲存

Amazon S3 是一種物件儲存服務,可提供業界領先的可擴展性、資料可用性、安全性和效能。S3 提供 99.999999999% 的耐用性和 99.99% 的可用性,具有強大的一致性和全球無限制的資料儲存。您可以使用跨區域複寫 (CRR) 來跨多個區域中的 S3 儲存貯體複製資料,以滿足法規合規和低延遲要求。S3 會自動擴展傳輸量,以實現效能和營運效率。

S3 儲存貯體和物件是私有的,且 S3 Block Public Access 預設為全域所有區域啟用。您可以使用儲存貯體政策AWS Identity and Access Management(IAM) 政策和存取控制清單 (ACLs),在 S3 資源上設定集中式存取控制。 https://docs.aws.amazon.com/AmazonS3/latest/userguide/acl-overview.html您可以使用 Access Analyzer for S3 來評估和識別具有公開存取的任何儲存貯體。使用物件字首和標記,您可以管理物件層級精細度的存取控制、儲存分層和複寫規則。

AWS CloudTrail 會記錄對 S3 伺服器存取記錄的每次 API 呼叫。S3 清查會稽核並報告資料的複寫和加密狀態。

S3 Intelligent-Tiering 可在存取模式變更時,在頻繁和不頻繁的存取層之間移動資料,而不會影響效能或營運開銷,藉此自動節省成本。S3 Glacier Deep Archive 可為需要長期保留的很少存取物件節省高達 95% 的儲存成本。

以資料欄格式存放資料,例如 Apache ParquetOptimized Row Columnar (ORC),可加快查詢速度,並降低使用 Amazon Athena 的處理成本。Snappy with Parquet 等壓縮選項可降低容量需求和儲存成本。

使用 S3 SelectS3 Glacier Select,您可以使用結構化查詢語言 (SQL) 表達式來查詢物件中繼資料,而無需將物件移至另一個資料存放區。

S3 批次操作可自動執行 S3 物件的大量操作,例如更新物件中繼資料和屬性、執行儲存管理任務、修改存取控制,以及從 S3 Glacier 還原封存物件。

S3 存取點可簡化和彙總不同團隊和應用程式對 S3 上共用資料的存取。每個存取點都與單一儲存貯體的唯一 DNS 名稱相關聯。您可以建立服務控制政策 (SCPs),將存取點限制為 Amazon Virtual Private Cloud (Amazon VPC),並隔離私有網路中的資料。

S3 Transfer Acceleration 可讓您在用戶端環境和 S3 儲存貯體之間進行長距離的檔案傳輸。

隨著資料湖的成長,S3 Storage Lens 提供全組織對物件儲存用量和活動趨勢的可見性,並提供可行的建議,以降低成本和營運開銷。

擷取

AWS 提供全方位的資料傳輸服務產品組合,將現有資料移至集中式資料湖。Amazon Storage GatewayAWS Direct Connect 可以解決混合雲端儲存需求。對於線上資料傳輸,請考慮使用 AWS DataSyncAmazon Kinesis。使用 AWS Snow 系列進行離線資料傳輸。

  • AWS Storage Gateway 透過將磁帶庫取代為雲端儲存、提供雲端儲存後端檔案共用,或建立低延遲快取,從內部部署環境存取 AWS 中的資料,將內部部署環境擴展到 AWS 儲存。

  • AWS Direct Connect 在內部部署環境和 AWS 之間建立私有連線,以降低網路成本、提高輸送量並提供一致的網路體驗。

  • AWS DataSync 可以將數百萬個檔案傳輸至 S3、Amazon Elastic File System (Amazon EFS) 或 Amazon FSx for Windows File Server,同時最佳化網路使用率。

  • Amazon Kinesis 提供安全的方式,可擷取串流資料並將其載入至 S3。Amazon Data Firehose 是一項全受管服務,可直接將即時串流資料交付至 S3。Firehose 會自動擴展以符合串流資料的容量和輸送量,且不需要持續管理。您可以在將資料存放在 S3 之前,使用 Firehose 內的壓縮、加密、資料批次或AWS Lambda函數轉換串流資料。Firehose 加密支援使用 AWS Key Management Service() 的 S3 伺服器端加密AWS KMS。或者,您可以使用自訂金鑰加密資料。Firehose 可以將多個傳入記錄串連和交付為單一 S3 物件,以降低成本並最佳化輸送量。

    AWS Snow 系列提供離線資料傳輸機制。 AWS Snowball Edge提供可攜式且堅固耐用的邊緣運算裝置,用於資料收集、處理和遷移。對於 exabyte 級資料傳輸,您可以使用 AWS Snowmobile 將大量資料磁碟區移至雲端。

    DistCp 提供分散式複製功能,可在 Hadoop 生態系統中移動資料。S3DisctCp 是 DistCp 的延伸,針對在 Hadoop 分散式檔案系統 (HDFS) 和 S3 之間移動資料進行最佳化。此部落格提供如何使用 S3DistCp 在 HDFS 和 S3 之間移動資料的資訊。

編製目錄

資料湖架構的常見挑戰之一,是對存放在資料湖中的原始資料內容缺乏監督。組織需要控管、語意一致性和存取控制,以避免建立資料沼澤而無策的陷阱。

AWS Lake Formation 可以透過 管理資料擷取AWS Glue,方法是自動分類資料,並將定義、結構描述和中繼資料儲存在中央資料目錄中。Lake Formation 具有內建的機器學習功能,可用於重複資料刪除和尋找相符的記錄,以改善資料品質。為了加快分析速度,Lake Formation 會將資料轉換為 Apache Parquet 和 ORC,然後再將其儲存在 S3 資料湖中。您可以定義存取政策,包括資料表和資料欄層級存取控制,或強制執行靜態資料加密。透過一致的安全強制執行,您的使用者可以使用他們選擇的分析和機器學習服務來存取和分析精選的集中式資料集。

AWS Glue DataBrew 是一種視覺化資料準備工具,可讓資料擁有者、主題專家或所有技能集的使用者參與資料準備程序。無需編寫任何程式碼,您的團隊可以從超過 250 個預先建置的轉換中選擇,以自動化資料準備任務,包括篩選資料異常、將資料轉換為標準格式,以及更正無效的值。轉換後的資料已準備好進行進階分析和機器學習專案。

安全

Amazon Connect 會依 AWS 帳戶 ID 和 Amazon Connect 執行個體 ID 隔離資料,以確保在 Amazon Connect 執行個體層級進行授權的資料存取。

Amazon Connect 會使用 Amazon Connect 執行個體專屬的時間限制金鑰,加密靜態個人身分識別資訊 (PII) 聯絡資料和客戶設定檔。S3 伺服器端加密使用每個 AWS 帳戶唯一的 KMS 資料金鑰來保護靜態語音和聊天錄音。您可以維護完整的安全控制,以設定使用者存取 S3 儲存貯體中的通話錄音,包括追蹤接聽或刪除通話錄音的人員。Amazon Connect 使用服務擁有的 KMS 金鑰加密客戶聲紋,以保護客戶身分。Amazon Connect 與其他 AWS 服務或外部應用程式之間交換的所有資料一律會使用業界標準傳輸層安全 (TLS) 加密進行傳輸加密。

保護資料湖需要精細的控制,以確保授權的資料存取和使用。S3 資源是私有的,根據預設只有其資源擁有者才能存取。資源擁有者可以建立資源型或身分型 IAM 政策的組合,以授予和管理 S3 儲存貯體和物件的許可。儲存貯體政策和 ACLs等資源型政策會連接到資源。相反地,身分型政策會連接到您 AWS 帳戶中的 IAM 使用者、群組或角色。

我們建議大多數資料湖環境採用以身分為基礎的政策,以簡化資料湖使用者的資源存取管理與服務許可。您可以在 AWS 帳戶中建立 IAM 使用者、群組和角色,並將其與授予 S3 資源存取權的身分型政策建立關聯。

AWS Lake Formation 許可模型可與 IAM 許可搭配使用,以管理資料湖存取。Lake Formation 許可模型使用資料庫管理系統 (DBMS) 樣式的 GRANT 或 REVOKE 機制。IAM 許可包含以身分為基礎的政策。例如,使用者必須先通過 IAM 和 Lake Formation 許可的許可檢查,才能存取資料湖資源。

AWS CloudTrail 會追蹤 Amazon Connect API 呼叫,包括請求者的 IP 地址和身分,以及 CloudTrail 事件歷史記錄中的請求日期和時間。建立 AWS CloudTrail 線索可讓 AWS CloudTrail 日誌持續交付至 S3 儲存貯體。

Amazon Athena Workgroups 可以使用以資源為基礎的政策來隔離查詢執行,並控制使用者、團隊或應用程式的存取。您可以透過限制工作群組上的資料用量來強制執行成本控制。

監控

可觀測性對於確保聯絡中心和資料湖的可用性、可靠性和效能至關重要。Amazon CloudWatch 為資源使用率、應用程式效能和運作狀態提供全系統可見性。記錄從 Amazon Connect 聯絡流程到 Amazon CloudWatch 的相關資訊,並在操作效能低於預先定義的閾值時建立即時通知。

Amazon Connect 會以一分鐘間隔將執行個體的使用資料作為 Amazon CloudWatch 指標傳送。Amazon CloudWatch 指標的資料保留期為兩週。及早定義日誌保留要求和生命週期政策,以確保長期資料封存的合規性和成本節省。

Amazon CloudWatch Logs 提供簡單的方法來篩選日誌資料,並識別事件調查和加速解決方案的不合規事件。您可以自訂聯絡流程,以偵測高風險來電者或潛在的詐騙活動。例如,您可以中斷任何在預先定義拒絕清單中的傳入聯絡人的連線。

分析

以描述性、預測性和即時分析產品組合為基礎的聯絡中心資料湖,可協助您擷取有意義的洞見並回應重要的商業問題。

一旦資料落入 S3 資料湖中,您就可以針對各種使用案例使用任何專用分析服務,例如 Amazon Athena 和 Amazon QuickSight,而不需要耗費大量人力的擷取、轉換和載入 (ETL) 任務。或者,您可以將偏好的分析平台帶到 S3 資料湖。如需使用 Amazon Athena、 和 Amazon QuickSight 分析 Amazon Connect 資料的逐步解說 AWS Glue,請參閱此部落格。 Amazon Athena Amazon QuickSight

對於高度可擴展的資料倉儲解決方案,您可以在 Amazon Connect 中啟用資料串流,透過 Amazon Kinesis 將聯絡記錄串流到 Amazon Redshift。 Amazon Kinesis

機器學習

建置資料湖可為聯絡中心架構帶來新的範例,讓您的企業能夠使用機器學習 (ML) 功能提供增強型個人化客戶服務。

傳統 ML 開發是一個複雜且昂貴的程序。AWS 可為任何 ML 專案或工作負載提供高效能、經濟實惠、可擴展的基礎設施和彈性 ML 服務深度和廣度。

Amazon SageMaker AI 是一項全受管服務,可讓資料科學家和開發人員針對聯絡中心使用案例大規模建置、訓練和部署 ML 模型。資料準備最多貢獻 80% 的資料科學家時間。Amazon SageMaker AI Data Wrangler 使用超過 300 個內建資料轉換,簡化並加速來自各種資料來源的資料準備和特徵工程,而無需撰寫任何程式碼。您可以在 Amazon SageMaker AI Feature Store 中存放標準化功能,以啟用重複使用並與組織的其餘部分共用。

減少客戶旅程中的摩擦對於避免客戶流失至關重要。若要將智慧新增至聯絡中心,您可以使用 Amazon Lex 自動語音辨識 (ASR) 和自然語言理解 (NLU) 功能來建置 AI 支援的對話式聊天機器人。客戶可以透過聊天機器人執行自助式任務,例如密碼重設、帳戶餘額檢查和預約排程,而無需與人工客服人員交談。若要自動化聯絡中心的常見問答集 (FAQs),您可以使用 Amazon Lex 和 Amazon Kendra 建置問題和答案 (Q&A) 聊天機器人。在 Amazon CloudWatch Logs 中啟用文字記錄,並在 S3 中儲存音訊輸入,可讓您分析對話流程、改善對話設計,並提高使用者參與度。

了解呼叫者-客服人員動態對於改善整體服務品質至關重要。請參閱此部落格,了解如何透過 Kinesis Video Stream 將語音錄音串流至 Amazon Transcribe 以進行語音辨識,並使用 Amazon Comprehend 將音訊轉換為文字,並對文字記錄執行情緒分析。

對於國際存在的組織,您可以使用 Amazon Connect Amazon PollyAmazon Translate 進行語言翻譯,在 Amazon Connect 中建立多語言語音體驗

傳統的財務規劃軟體會根據歷史時間序列資料建立預測,而不會關聯不一致的趨勢和相關變數。Amazon Forecast 使用機器學習來探索時間序列資料和其他變數之間的基礎關係,例如產品功能和存放位置,從而提供高達 50% 的準確度。無需機器學習經驗,您可以輕鬆建立客服人員需求或庫存預測,方法是將 S3 儲存貯體中的時間序列和相關資料提供給 Amazon Forecast。您可以使用 加密機密內容 AWS KMS ,並使用 IAM 政策控制對 Amazon Forecast 的存取。Amazon Forecast 會在高可用性的環境中訓練和託管自訂機器學習模型。您可以快速產生高度準確的業務預測,而無需管理任何基礎設施或複雜的機器學習程序。

Amazon Connect 提供來自電話電信業者的通話屬性,例如語音設備的地理位置,以顯示通話的來源、電話裝置類型,例如市話或行動電話、通話周遊的網路區段數量,以及其他通話起始資訊。使用全受管 Amazon Fraud Detector,您可以建立 ML 模型,將資料集與 Amazon Connect 呼叫屬性結合,以識別潛在的詐騙活動。例如,您可以自訂聯絡流程,以智慧方式將具有潛在詐騙訊號的通話路由至專業客服人員。