データセットの準備 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットの準備

まだ作成していない場合は、情報を収集するウェブサイトの詳細なデータセットを準備します。このデータセットには、ウェブサイト URL ドメイン名と関連するサブドメイン名を含める必要があります。このセクションでは、このデータセットを構築するためのstep-by-stepのプロセスについて説明します。

データセットを準備するには
  1. 範囲を定義する — 重点を置いている業界またはセクターを決定します。含める企業の数を決定します。また、従業員数、場所、収益など、これらの企業について収集する基準を定義します。

  2. データソースの特定 – これらの会社に関する情報を収集するために使用できる情報源を特定します。例としては、ビジネスディレクトリ (Crunchbase"Forbes など)、株式交換 (NYSE や NASDAQ など)、業界固有の関連付けや出版物、政府データベース (SEC ファイリングなど) などがあります。

  3. テーブルの作成 – Microsoft Excel、Google Sheets、データベース管理システムなどの任意のツールで、各会社に関する基準を収集するためのテーブルを作成します。各条件に列を含めます。少なくとも、会社名、プライマリドメイン、サブドメイン、業界、サイズ、場所の列を含めます。

  4. 初期会社情報を収集する – 各会社に関する次の情報を収集し、作成したテーブルに入力します。

    • 会社名

    • 業界またはセクター

    • 会社規模 (従業員数)

    • Revenue

    • 本社の場所

  5. ドメイン情報を収集する – 会社ごとに、 などのメインウェブサイト URL からプライマリドメイン名を抽出しますexample.com。WHOIS ドメインルックアップツールを使用してドメイン情報を確認できます。

  6. サブドメイン情報を収集する – 会社ごとに、 などの登録されたサブドメインを調べますblog.example.comSublist3rOWASP AmassSubfinder などのサブドメイン列挙ツールを使用できます。Google のドーキング ( を検索) を実行したりsite:example.comdigコマンドまたは DNS ルックアップツールを使用して DNS レコードを確認したり、SSL 証明書または TLS 証明書を分析したりできます。

  7. データを検証してクリーンアップする ­– 収集したデータを確認、検証、標準化します。たとえば、重複するエントリを削除し、ドメインとサブドメインから不要な URL 情報を削除して、すべてのドメインとサブドメインがアクティブであることを確認します。

  8. (オプション) サブドメインを分類する – サブドメインをタイプに分類できます。以下は、発生する可能性のあるカテゴリの例です。

    • などのブログ blog.example.com

    • や などのサポートsupport.example.comまたはヘルプ help.example.com

    • shop.example.com や などの E コマース store.example.com

    • dev.example.com や などの開発者リソース api.example.com

    • や などのリージョンus.example.comまたはロケーション uk.example.com

  9. (オプション) 関連するメタデータを追加する – 関連するメタデータをデータセットに記録できます。たとえば、最終更新日、情報源、サブドメインの精度の信頼スコアを追加できます。

  10. バージョン管理の実装 – Git などのバージョン管理システムを使用して、テーブルへの経時的な変更を追跡します。データセットを定期的にバックアップします。

  11. テーブルの維持 – テーブルを更新するための四半期ごとのスケジュールを設定します。新しい会社を追加したり、不要になった会社を削除したりするプロセスを標準化して実装します。可能であれば、サブドメインの検出を自動化します。