翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
での ESG データ用のスケーラブルなウェブクロールシステムの構築 AWS
Vijit Vashishtha と Mansi Doshi、Amazon Web Services
2025 年 1 月 (ドキュメント履歴)
環境、社会、ガバナンス (ESG) の要因は、潜在的な投資を評価する際に、投資者にとって重要な考慮事項です。
-
環境 – 自然界に対する企業の影響に焦点を当てます。これには、炭素排出量、リソース管理、エネルギー効率などの要因が含まれます。
-
ソーシャル – 企業が従業員、サプライヤー、顧客、コミュニティとの関係をどのように管理しているかを調べます。ここでは、労働慣行、多様性、コミュニティエンゲージメントなどの側面について説明します。
-
ガバナンス – 会社のリーダーシップ、内部管理、および株主の権利に注目します。これには、取締役会の構成、経営陣の補償、事業活動が含まれます。
堅牢な ESG プラクティスを持つ企業は、長期的な持続可能性と生産性の向上に向けて、より有利な立場にあるとますます見なされています。ESG 情報に対する投資家の需要が高まっています。信頼性が高く有用な ESG データを通じて持続可能性の認証情報を実証できる企業は、資本を惹きつけ、競争力を維持するうえで有利です。企業は、ニュース、記事、年次レポートなど、さまざまなソースを通じて ESG データを発行します。この情報は分散されているため、ウェブクローラーは、このデータを効率的に収集するのに役立ちます。
この包括的なガイドではAWS Fargate、、Amazon Elastic Compute Cloud (Amazon EC2)、AWS Batch、Amazon Simple Storage Service (Amazon S3) を使用して、堅牢でスケーラブルで責任あるデータ収集パイプラインを構築する方法を示します。ここでは、以下について説明します。
-
次の を使用して、スケーラブルなクローリングシステムを設計します AWS のサービス。
-
クローラアプリケーションを実行するための Fargate または Amazon EC2
-
AWS Batch 大規模なクローリングジョブを効率的にオーケストレーションする
-
安全で耐久性のあるデータストレージのための Amazon S3
-
-
以下を含む、倫理的クロールのベストプラクティスを実装します。
-
robots.txt とウェブサイトポリシーの尊重
-
ターゲットサイトが過負荷にならないようにレート制限を管理する
-
収集した情報のデータのプライバシーと責任ある使用を確保する
-
-
インフラストラクチャに AWS 最適化された Pythonベースのクローラの開発
-
倫理基準を維持しながらクローラのパフォーマンスを最適化する
対象者
このガイドは、公開ウェブサイトから大量のup-to-date ESG データを効率的に収集したいデータエンジニアやクラウドアーキテクトを対象としています。これは、市場分析、持続可能な財務評価、または財務調査を含むプロジェクトに特に関連します。
ターゲットを絞ったビジネス成果
企業が ESG データを使用する一般的な理由は次のとおりです。
-
リスク管理 – ESG データは、環境、社会、ガバナンスの問題に関連する潜在的なリスクを特定して軽減するのに役立ちます。
-
投資家の誘致 — 多くの投資家は、投資を決定する際に ESG 要因を考慮しています。これらは、強力な ESG プラクティスを長期的な持続可能性と収益性の指標と見なしています。
-
評価管理 – 優れた ESG パフォーマンスは、顧客、従業員、一般の間で会社の評価を高めることができます。
-
規制コンプライアンス – ESG 関連の規制が増えるにつれて、企業が ESG プラクティスを採用することで、コンプライアンス要件を先取りすることができます。
-
イノベーションと効率性 — ESG 要因に焦点を当てることで、製品、サービス、運用におけるイノベーションを促進することができます。これにより、効率とコスト削減が向上します。
-
競争上の利点 — 強力な ESG パフォーマンスは、企業を競合相手から差別化し、新しい市場機会を開くことができます。
-
ステークホルダーのエンゲージメント – ESG プラクティスは、企業が従業員、顧客、地域コミュニティなど、さまざまなステークホルダーとのエンゲージメントを高め、期待に応えるのに役立ちます。