建置可擴展的 Web 爬取系統,以用於 上的 ESG 資料 AWS - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建置可擴展的 Web 爬取系統,以用於 上的 ESG 資料 AWS

Vijit Vashishtha 和 Mansi Doshi,Amazon Web Services

2025 年 1 月 (文件歷史記錄)

在評估潛在投資時,環境、社會和控管 (ESG) 因素是投資者的重要考量:

  • 環境 – 專注於公司對自然世界的影響。它包含碳排放、資源管理和能源效率等因素。

  • 社交 – 檢查公司如何管理與員工、供應商、客戶和社群的關係。它涵蓋了人力實務、多樣性和社群參與等層面。

  • 控管 – 著眼於公司的領導階層、內部控制和擁有者權利。其中包括董事會組成、主管補償和商業道德。

具有強大 ESG 實務的公司在長期永續性和獲利能力方面,越來越被視作更好的定位。投資者對 ESG 資訊的需求不斷增加。能夠透過可靠、實用的 ESG 資料來證明其永續性登入資料的公司,更能吸引資金並保持競爭力。公司透過各種來源發佈 ESG 資料,例如新聞、文章和年報。由於此資訊是分散的,Web 爬蟲程式可協助您有效率地收集此資料。

此完整指南示範如何使用 AWS FargateAmazon Elastic Compute Cloud (Amazon EC2)AWS BatchAmazon Simple Storage Service (Amazon S3) 來建置強大、可擴展且負責任的資料收集管道。它討論了以下內容:

  • 使用下列 架構可擴展的爬蟲系統 AWS 服務:

    • 用於執行爬蟲程式應用程式的 Fargate 或 Amazon EC2

    • AWS Batch 可有效率地協調大規模爬蟲任務

    • Amazon S3 提供安全且耐用的資料儲存

  • 實作道德爬蟲的最佳實務,包括:

    • 遵守 robots.txt 和網站政策

    • 管理速率限制,以避免造成目標網站負擔過重

    • 確保資料隱私權和負責任地使用所收集的資訊

  • 開發針對 AWS 基礎設施最佳化的 Python型爬蟲程式

  • 最佳化爬蟲程式效能,同時維持安全標準

目標對象

本指南適用於希望從公有網站有效收集大量up-to-date ESG 資料的資料工程師和雲端架構師。它與涉及市場分析、永續財務評估或財務研究的專案特別相關。

目標業務成果

以下是公司使用 ESG 資料的常見原因:

  • 風險管理 – ESG 資料可協助您識別和降低與環境、社交和控管問題相關的潛在風險。

  • 吸引投資者 – 許多投資者現在在做出投資決策時會考慮 ESG 因素。他們會將強大的 ESG 實務視為長期永續性和獲利能力的指標。

  • 評價管理 – 良好的 ESG 效能可以增強公司在客戶、員工和一般大眾之間的評價。

  • 法規合規 – 隨著 ESG 相關法規的增加,採用 ESG 實務有助於公司在合規要求方面保持領先。

  • 創新和效率 – 專注於 ESG 因素可以推動產品、服務和營運方面的創新。這可提升效率並節省成本。

  • 競爭優勢 – 強大的 ESG 效能可以讓公司與其競爭對手區分開來,並開啟新的市場機會。

  • 利益相關者參與 – ESG 實務可協助公司更好地與各種利益相關者互動並滿足其期望,包括員工、客戶和當地社群。