本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
准备数据集
如果您尚未这样做,请准备要从中收集信息的网站的详细数据集。此数据集应包括网站网址域名和相关的子域名。本节提供了构建此数据集的 step-by-step过程。
准备数据集
-
定义范围 — 确定你关注的一个或多个行业。决定要包括多少家公司。并定义您要收集的有关这些公司的任何标准,例如员工人数、地点或收入。
-
识别数据源-确定您可以使用哪些信息来源来收集有关这些公司的信息。示例包括企业名录(例如 Crunchbase
、彭博社 或福布斯 )、证券交易所(例如纽约证券交易所和纳斯达克)、特定行业的协会或出版物或政府数据库(例如美国证券交易委员会的文件)。 -
创建表格-在你首选的工具(例如 Microsoft Excel、Google 表格或数据库管理系统)中,创建一个用于收集有关每家公司的标准的表。为每个标准包括一列。至少要包括公司名称、主域名、子域名、行业、规模和位置等列。
-
收集公司初始信息-收集有关每家公司的以下信息,并将其输入到您创建的表格中:
-
公司名称
-
行业或行业
-
公司规模(员工人数)
-
Revenue (收入)
-
公司总部所在地
-
-
收集域名信息-对于每家公司,从主网站 URL 中提取主域名,例如
example.com
。您可以使用 WHOIS 域名查询工具验证域名信息。 -
收集子域信息-对于每家公司,研究注册的子域名,例如。
blog.example.com
你可以使用子域枚举工具,例如 sub List3R、OWASP Amass 或 Sub finder。 您可以执行 Google dorking(通过搜索 site:example.com
),使用dig
命令或 DNS 查询工具检查 DNS 记录,也可以分析 SSL 或 TLS 证书。 -
验证和清理数据-查看、验证和标准化您收集的数据。例如,删除所有重复的条目,从域名和子域中删除不必要的 URL 信息,并确认所有域名和子域名都处于活动状态。
-
(可选)对子域进行分类-您可以将子域名按类型进行分类。以下是您可能遇到的一些类别示例:
-
博客,例如
blog.example.com
-
Support 或帮助,例如
support.example.com
或help.example.com
-
电子商务,例如
shop.example.com
或store.example.com
-
开发者资源,例如
dev.example.com
或api.example.com
-
地区或地点,例如
us.example.com
或uk.example.com
-
-
(可选)添加相关元数据-您可以在数据集中记录任何相关的元数据。例如,您可以添加上次更新日期、信息来源或子域准确性的置信度分数。
-
实现版本控制-使用版本控制系统(例如 Git)来跟踪表格随时间推移而发生的变化。定期备份数据集。
-
维护表格-设置更新表格的时间表,例如每季度。标准化并实施添加新公司或删除不再需要的公司的流程。如果可能,自动发现子域名。