準備資料集 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備資料集

如果您尚未這麼做,請準備要從中收集資訊之網站的詳細資料集。此資料集應包含網站 URL 網域名稱和相關的子網域名稱。本節提供建置此資料集的step-by-step程序。

準備資料集
  1. 定義範圍 – 確定您關注的產業或產業。決定要包含的公司數量。並定義您希望收集有關這些公司的任何條件,例如員工人數、地點或收入。

  2. 識別資料來源 – 識別您可以用來收集這些公司相關資訊的資訊來源。範例包括商業目錄 (例如 CrunchbaseBloombergForbes)、股票交換 (例如 TZ 和 NASDAQ)、產業特定的關聯或出版物,或政府資料庫 (例如 SEC 檔案)。

  3. 建立資料表 – 在您偏好的工具中,例如 Microsoft Excel、Google Sheets 或資料庫管理系統中,建立用於收集每個公司準則的資料表。為每個條件包含資料欄。至少包含公司名稱、主要網域、子網域、產業、大小和位置的資料欄。

  4. 收集初始公司資訊 – 收集每個公司的下列資訊,並將其輸入您建立的表格中:

    • 公司名稱

    • 產業或產業

    • 公司規模 (員工人數)

    • 營收

    • 公司總部的位置

  5. 收集網域資訊 – 對於每個公司,從主要網站 URL 擷取主要網域名稱,例如 example.com。您可以使用 WHOIS 網域查詢工具來驗證網域資訊。

  6. 收集子網域資訊 – 針對每個公司,研究已註冊的子網域,例如 blog.example.com。您可以使用子網域列舉工具,例如 Sublist3rOWASP AmassSubfinder。您可以執行 Google 偏離 (透過搜尋 site:example.com)、使用dig命令或 DNS 查詢工具檢查 DNS 記錄,或是分析 SSL 或 TLS 憑證。

  7. 驗證和清除資料 – 檢閱、驗證和標準化您已收集的資料。例如,移除任何重複的項目、從網域和子網域移除不必要的 URL 資訊,並確認所有網域和子網域都處於作用中狀態。

  8. (選用) 將子網域分類 – 您可以將子網域分類為類型。以下是您可能遇到的類別的一些範例:

    • 部落格,例如 blog.example.com

    • 支援或協助,例如 support.example.comhelp.example.com

    • 電子商務,例如 shop.example.comstore.example.com

    • 開發人員資源,例如 dev.example.comapi.example.com

    • 區域或位置,例如 us.example.comuk.example.com

  9. (選用) 新增相關的中繼資料 – 您可以在資料集中記錄任何相關的中繼資料。例如,您可以新增上次更新的日期、資訊來源或子網域準確性的可信度分數。

  10. 實作版本控制 – 使用 Git 等版本控制系統來追蹤資料表隨時間的變化。定期備份資料集。

  11. 維護資料表 – 設定排程,例如每季更新資料表。標準化並實作新增公司或移除不再需要的公司的程序。可能的話,自動探索子網域。