本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
資料湖生命週期
建置資料湖通常包含五個階段:
-
設定儲存體
-
移動資料
-
準備和編製資料目錄
-
設定安全政策
-
讓資料可供取用
下圖是 Amazon Connect 聯絡中心資料湖的高階架構圖,與 AWS 分析和人工智慧/機器學習 (AI/ML) 服務整合。下節涵蓋下圖所示的案例和 AWS 服務。

Amazon Connect 聯絡中心資料湖搭配 AWS 分析和 AI/ML 服務
儲存
Amazon S3
S3 儲存貯體和物件是私有的,且 S3 Block Public Access 預設為全域所有區域啟用。您可以使用儲存貯體政策、 AWS Identity and Access Management
AWS CloudTrail
S3 Intelligent-Tiering
以資料欄格式存放資料,例如 Apache Parquet
使用 S3 Select 和 S3 Glacier Select,您可以使用結構化查詢語言 (SQL) 表達式來查詢物件中繼資料,而無需將物件移至另一個資料存放區。
S3 批次操作
S3 存取點
S3 Transfer Acceleration
隨著資料湖的成長,S3 Storage Lens
擷取
AWS 提供全方位的資料傳輸服務產品組合,將現有資料移至集中式資料湖。Amazon Storage Gateway
-
AWS Storage Gateway 透過將磁帶庫取代為雲端儲存、提供雲端儲存後端檔案共用,或建立低延遲快取,從內部部署環境存取 AWS 中的資料,將內部部署環境擴展到 AWS 儲存。
-
AWS Direct Connect 在內部部署環境和 AWS 之間建立私有連線,以降低網路成本、提高輸送量並提供一致的網路體驗。
-
AWS DataSync 可以將數百萬個檔案傳輸至 S3、Amazon Elastic File System
(Amazon EFS) 或 Amazon FSx for Windows File Server ,同時最佳化網路使用率。 -
Amazon Kinesis 提供安全的方式,可擷取串流資料並將其載入至 S3。Amazon Data Firehose
是一項全受管服務,可直接將即時串流資料交付至 S3。Firehose 會自動擴展以符合串流資料的容量和輸送量,且不需要持續管理。您可以在將資料存放在 S3 之前,使用 Firehose 內的壓縮、加密、資料批次或AWS Lambda 函數轉換串流資料。Firehose 加密支援使用 AWS Key Management Service () 的 S3 伺服器端加密AWS KMS。或者,您可以使用自訂金鑰加密資料。Firehose 可以將多個傳入記錄串連和交付為單一 S3 物件,以降低成本並最佳化輸送量。 AWS Snow 系列提供離線資料傳輸機制。 AWS Snowball Edge
提供可攜式且堅固耐用的邊緣運算裝置,用於資料收集、處理和遷移。對於 exabyte 級資料傳輸,您可以使用 AWS Snowmobile 將大量資料磁碟區移至雲端。 DistCp
提供分散式複製功能,可在 Hadoop 生態系統中移動資料。S3DisctCp 是 DistCp 的延伸,針對在 Hadoop 分散式檔案系統 (HDFS) 和 S3 之間移動資料進行最佳化。此部落格 提供如何使用 S3DistCp 在 HDFS 和 S3 之間移動資料的資訊。
編製目錄
資料湖架構的常見挑戰之一,是對存放在資料湖中的原始資料內容缺乏監督。組織需要控管、語意一致性和存取控制,以避免建立資料沼澤而無策的陷阱。
AWS Lake Formation
AWS Glue DataBrew
安全
Amazon Connect 會依 AWS 帳戶 ID 和 Amazon Connect 執行個體 ID 隔離資料,以確保在 Amazon Connect 執行個體層級進行授權的資料存取。
Amazon Connect 會使用 Amazon Connect 執行個體專屬的時間限制金鑰,加密靜態個人身分識別資訊 (PII) 聯絡資料和客戶設定檔。S3 伺服器端加密使用每個 AWS 帳戶唯一的 KMS 資料金鑰來保護靜態語音和聊天錄音。您可以維護完整的安全控制,以設定使用者存取 S3 儲存貯體中的通話錄音,包括追蹤接聽或刪除通話錄音的人員。Amazon Connect 使用服務擁有的 KMS 金鑰加密客戶聲紋,以保護客戶身分。Amazon Connect 與其他 AWS 服務或外部應用程式之間交換的所有資料一律會使用業界標準傳輸層安全 (TLS) 加密進行傳輸加密。
保護資料湖需要精細的控制,以確保授權的資料存取和使用。S3 資源是私有的,根據預設只有其資源擁有者才能存取。資源擁有者可以建立資源型或身分型 IAM 政策的組合,以授予和管理 S3 儲存貯體和物件的許可。儲存貯體政策和 ACLs等資源型政策會連接到資源。相反地,身分型政策會連接到您 AWS 帳戶中的 IAM 使用者、群組或角色。
我們建議大多數資料湖環境採用以身分為基礎的政策,以簡化資料湖使用者的資源存取管理與服務許可。您可以在 AWS 帳戶中建立 IAM 使用者、群組和角色,並將其與授予 S3 資源存取權的身分型政策建立關聯。
AWS Lake Formation 許可模型可與 IAM 許可搭配使用,以管理資料湖存取。Lake Formation 許可模型使用資料庫管理系統 (DBMS) 樣式的 GRANT 或 REVOKE 機制。IAM 許可包含以身分為基礎的政策。例如,使用者必須先通過 IAM 和 Lake Formation 許可的許可檢查,才能存取資料湖資源。
AWS CloudTrail 會追蹤 Amazon Connect API 呼叫,包括請求者的 IP 地址和身分,以及 CloudTrail 事件歷史記錄中的請求日期和時間。建立 AWS CloudTrail 線索可讓 AWS CloudTrail 日誌持續交付至 S3 儲存貯體。
Amazon Athena Workgroups 可以使用以資源為基礎的政策來隔離查詢執行,並控制使用者、團隊或應用程式的存取。您可以透過限制工作群組上的資料用量來強制執行成本控制。
監控
可觀測性對於確保聯絡中心和資料湖的可用性、可靠性和效能至關重要。Amazon CloudWatch
Amazon Connect 會以一分鐘間隔將執行個體的使用資料作為 Amazon CloudWatch 指標傳送。Amazon CloudWatch 指標的資料保留期為兩週。及早定義日誌保留要求和生命週期政策,以確保長期資料封存的合規性和成本節省。
Amazon CloudWatch Logs 提供簡單的方法來篩選日誌資料,並識別事件調查和加速解決方案的不合規事件。您可以自訂聯絡流程,以偵測高風險來電者或潛在的詐騙活動。例如,您可以中斷任何在預先定義拒絕清單中的傳入聯絡人的連線。
分析
以描述性、預測性和即時分析產品組合為基礎的聯絡中心資料湖,可協助您擷取有意義的洞見並回應重要的商業問題。
一旦資料落入 S3 資料湖中,您就可以針對各種使用案例使用任何專用分析服務,例如 Amazon Athena 和 Amazon QuickSight
對於高度可擴展的資料倉儲解決方案,您可以在 Amazon Connect 中啟用資料串流,透過 Amazon Kinesis 將聯絡記錄串流到 Amazon Redshift
機器學習
建置資料湖可為聯絡中心架構帶來新的範例,讓您的企業能夠使用機器學習 (ML) 功能提供增強型個人化客戶服務。
傳統 ML 開發是一個複雜且昂貴的程序。AWS 可為任何 ML 專案或工作負載提供高效能、經濟實惠、可擴展的基礎設施和彈性 ML 服務
Amazon SageMaker AI
減少客戶旅程中的摩擦對於避免客戶流失至關重要。若要將智慧新增至聯絡中心,您可以使用 Amazon Lex
了解呼叫者-客服人員動態對於改善整體服務品質至關重要。請參閱此部落格
對於國際存在的組織,您可以使用 Amazon Connect Amazon Polly
傳統的財務規劃軟體會根據歷史時間序列資料建立預測,而不會關聯不一致的趨勢和相關變數。Amazon Forecast
Amazon Connect 提供來自電話電信業者的通話屬性,例如語音設備的地理位置,以顯示通話的來源、電話裝置類型,例如市話或行動電話、通話周遊的網路區段數量,以及其他通話起始資訊。使用全受管 Amazon Fraud Detector