本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備資料集
如果您尚未這麼做,請準備要從中收集資訊之網站的詳細資料集。此資料集應包含網站 URL 網域名稱和相關的子網域名稱。本節提供建置此資料集的step-by-step程序。
準備資料集
-
定義範圍 – 確定您關注的產業或產業。決定要包含的公司數量。並定義您希望收集有關這些公司的任何條件,例如員工人數、地點或收入。
-
識別資料來源 – 識別您可以用來收集這些公司相關資訊的資訊來源。範例包括商業目錄 (例如 Crunchbase
、Bloomberg 或 Forbes )、股票交換 (例如 TZ 和 NASDAQ)、產業特定的關聯或出版物,或政府資料庫 (例如 SEC 檔案)。 -
建立資料表 – 在您偏好的工具中,例如 Microsoft Excel、Google Sheets 或資料庫管理系統中,建立用於收集每個公司準則的資料表。為每個條件包含資料欄。至少包含公司名稱、主要網域、子網域、產業、大小和位置的資料欄。
-
收集初始公司資訊 – 收集每個公司的下列資訊,並將其輸入您建立的表格中:
-
公司名稱
-
產業或產業
-
公司規模 (員工人數)
-
營收
-
公司總部的位置
-
-
收集網域資訊 – 對於每個公司,從主要網站 URL 擷取主要網域名稱,例如
example.com
。您可以使用 WHOIS 網域查詢工具來驗證網域資訊。 -
收集子網域資訊 – 針對每個公司,研究已註冊的子網域,例如
blog.example.com
。您可以使用子網域列舉工具,例如 Sublist3r、OWASP Amass 或 Subfinder 。您可以執行 Google 偏離 (透過搜尋 site:example.com
)、使用dig
命令或 DNS 查詢工具檢查 DNS 記錄,或是分析 SSL 或 TLS 憑證。 -
驗證和清除資料 – 檢閱、驗證和標準化您已收集的資料。例如,移除任何重複的項目、從網域和子網域移除不必要的 URL 資訊,並確認所有網域和子網域都處於作用中狀態。
-
(選用) 將子網域分類 – 您可以將子網域分類為類型。以下是您可能遇到的類別的一些範例:
-
部落格,例如
blog.example.com
-
支援或協助,例如
support.example.com
或help.example.com
-
電子商務,例如
shop.example.com
或store.example.com
-
開發人員資源,例如
dev.example.com
或api.example.com
-
區域或位置,例如
us.example.com
或uk.example.com
-
-
(選用) 新增相關的中繼資料 – 您可以在資料集中記錄任何相關的中繼資料。例如,您可以新增上次更新的日期、資訊來源或子網域準確性的可信度分數。
-
實作版本控制 – 使用 Git 等版本控制系統來追蹤資料表隨時間的變化。定期備份資料集。
-
維護資料表 – 設定排程,例如每季更新資料表。標準化並實作新增公司或移除不再需要的公司的程序。可能的話,自動探索子網域。