簡介 - 使用 Amazon Kinesis 串流 AWS 上的資料解決方案

簡介

由於資料來源的爆炸性成長,不斷產生資料串流,因此,如今的企業以大規模和速度接收資料。無論是來自應用程式伺服器的日誌資料、來自網站和行動應用程式的點擊流資料,還是來自物聯網 (IoT) 裝置的遙測資料,其中都包含可幫助您了解客户、應用程式和產品目前正在做什麼的資訊。

具備即時處理和分析這些資料的能力,對於執行諸如持續監控應用程式以確保較長的服務運行時間,以及個人化促銷優惠和產品推薦等任務至關重要。即時和近乎即時的處理還可以使其他常見使用案例(如網站分析和機器學習)更準確和可操作,方法是在幾秒鐘或幾分鐘 (而不是數小時或幾天) 內向這些應用程式提供資料。

即時和近乎即時的應用情境

您可以將串流資料服務用於即時和近乎即時的應用程式,例如應用程式監控、詐騙偵測和即時排行榜。即時使用案例需要毫秒級的端到端延遲 — 從擷取到處理,一直到將結果發送到目標資料存放區和其他系統。例如,Netflix 使用 Amazon Kinesis Data Streams 監控所有應用程式之間的通訊,以便快速地偵測和修正問題,確保為客戶提供較長服務運行時間和高可用性。儘管最常用的使用案例是應用程式效能監控,但有越來越多的廣告技術、遊戲和物聯網領域的即時應用程式都屬於此類別。

常見的近乎即時使用案例包括針對資料科學和機器學習 (ML) 的資料存放區進行分析。您可以使用串流資料解決方案,持續將即時資料載入到資料湖中。您也可以在有可用的新資料時更頻繁地更新機器學習模式,以確保輸出的準確性和可靠性。例如,Zillow 使用 Kinesis Data Streams 收集公有記錄資料和多重上市服務 (MLS) 列表,然後向買家和賣家提供近乎即時的最新房屋價值估算。ZipRecruiter 將 Amazon MSK 用於事件記錄管道,這是重要的基礎設施元件,它每天會從 ZipRecruiter 就業市場收集、存放和持續處理超過六十億個事件。

批次處理和串流處理之間的區別

您需要一組不同的工具來收集、準備和處理即時串流資料,而不是傳統上用於批次分析的工具。透過傳統分析,您可以收集資料、定期將資料載入到資料庫中,並在幾小時、幾天或幾週之後對其進行分析。分析即時資料需要採用不同的方法。串流處理應用程式甚至可在存放資料前連續即時處理資料。串流資料能夠以極快的速度進入,資料量隨時可能會上下浮動。串流資料處理平台必須能夠處理傳入資料的速度和可變性,並在資料到達時對其進行處理,通常每小時有數以百萬到數億個事件。