本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS Glue 爬蟲程式查詢大型資料集
此範例專案示範如何在 Amazon S3 中擷取大型資料集,並透過 AWS Glue Crawlers 進行分割,然後針對該分割區執行 Amazon Athena 查詢。
在此專案中,Step Functions 狀態機器會呼叫 AWS Glue 爬蟲程式,該爬蟲程式會分割 Amazon S3 中的大型資料集。一旦 AWS Glue 爬蟲程式傳回成功訊息,工作流程就會針對該分割區執行 Athena 查詢。一旦查詢執行成功完成,Amazon SNS通知就會傳送至 Amazon SNS主題。
步驟 1:建立狀態機器
-
開啟 Step Functions 主控台
,然後選擇建立狀態機器。 -
尋找並選擇您要使用的入門範本。選擇 Next (下一步) 繼續。
-
選擇執行示範以建立唯讀和 ready-to-deploy工作流程,或選擇建置在其中以建立可編輯的狀態機器定義,供您建置和稍後部署。
-
選擇使用範本以繼續您的選擇。
後續步驟取決於您先前的選擇:
-
執行示範 – 您可以在建立具有 已部署 AWS CloudFormation 至 之 資源的唯讀專案之前,檢閱 狀態機器 AWS 帳戶。
您可以檢視狀態機器定義,當您準備好時,請選擇部署並執行 以部署專案並建立 資源。
部署最多可能需要 10 分鐘才能建立資源和許可。您可以使用 Stack ID 連結來監控 中的進度 AWS CloudFormation。
部署完成後,您應該會在 主控台中看到新的狀態機器。
-
在上面建置 – 您可以檢閱和編輯工作流程定義。在嘗試執行自訂工作流程之前,您可能需要為範例專案中的預留位置設定值。
注意
部署至您 帳戶的 服務,可能會收取標準費用。
步驟 2:執行狀態機器
在狀態機器頁面上,選擇您的範例專案。
在範例專案頁面上,選擇開始執行。
在開始執行對話方塊中,執行下列動作:
-
(選用) 輸入自訂執行名稱以覆寫產生的預設值。
非ASCII名稱和記錄
Step Functions 接受狀態機器、執行、活動和包含非ASCII 字元的標籤的名稱。由於這類字元不適用於 Amazon CloudWatch,因此建議您只使用ASCII字元,以便追蹤 中的指標 CloudWatch。
-
(選用) 在輸入方塊中,將輸入值輸入為 JSON。如果您正在執行示範,可以略過此步驟。
-
選擇 Start execution (開始執行)。
Step Functions 主控台會將您導向執行詳細資訊頁面,您可以在圖形檢視中選擇狀態,以在步驟詳情窗格中探索相關資訊。
-
恭喜您!
您現在應該有執行中的示範或可自訂的狀態機器定義。