准备数据集 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准备数据集

如果您尚未这样做,请准备要从中收集信息的网站的详细数据集。此数据集应包括网站网址域名和相关的子域名。本节提供了构建此数据集的 step-by-step过程。

准备数据集
  1. 定义范围 — 确定你关注的一个或多个行业。决定要包括多少家公司。并定义您要收集的有关这些公司的任何标准,例如员工人数、地点或收入。

  2. 识别数据源-确定您可以使用哪些信息来源来收集有关这些公司的信息。示例包括企业名录(例如 Crunchbase彭博社福布斯)、证券交易所(例如纽约证券交易所和纳斯达克)、特定行业的协会或出版物或政府数据库(例如美国证券交易委员会的文件)。

  3. 创建表格-在你首选的工具(例如 Microsoft Excel、Google 表格或数据库管理系统)中,创建一个用于收集有关每家公司的标准的表。为每个标准包括一列。至少要包括公司名称、主域名、子域名、行业、规模和位置等列。

  4. 收集公司初始信息-收集有关每家公司的以下信息,并将其输入到您创建的表格中:

    • 公司名称

    • 行业或行业

    • 公司规模(员工人数)

    • Revenue (收入)

    • 公司总部所在地

  5. 收集域名信息-对于每家公司,从主网站 URL 中提取主域名,例如example.com。您可以使用 WHOIS 域名查询工具验证域名信息。

  6. 收集子域信息-对于每家公司,研究注册的子域名,例如。blog.example.com你可以使用子域枚举工具,例如 sub List3R、O WASP Amass 或 Sub finder。您可以执行 Google dorking(通过搜索site:example.com),使用dig命令或 DNS 查询工具检查 DNS 记录,也可以分析 SSL 或 TLS 证书。

  7. 验证和清理数据-查看、验证和标准化您收集的数据。例如,删除所有重复的条目,从域名和子域中删除不必要的 URL 信息,并确认所有域名和子域名都处于活动状态。

  8. (可选)对子域进行分类-您可以将子域名按类型进行分类。以下是您可能遇到的一些类别示例:

    • 博客,例如 blog.example.com

    • Support 或帮助,例如support.example.comhelp.example.com

    • 电子商务,例如shop.example.comstore.example.com

    • 开发者资源,例如dev.example.comapi.example.com

    • 地区或地点,例如us.example.comuk.example.com

  9. (可选)添加相关元数据-您可以在数据集中记录任何相关的元数据。例如,您可以添加上次更新日期、信息来源或子域准确性的置信度分数。

  10. 实现版本控制-使用版本控制系统(例如 Git)来跟踪表格随时间推移而发生的变化。定期备份数据集。

  11. 维护表格-设置更新表格的时间表,例如每季度。标准化并实施添加新公司或删除不再需要的公司的流程。如果可能,自动发现子域名。