Preparar un conjunto de datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparar un conjunto de datos

Si aún no lo ha hecho, prepare un conjunto de datos detallado de los sitios web de los que desea recopilar información. Este conjunto de datos debe incluir la URL del sitio web, los nombres de dominio y los nombres de subdominios relevantes. En esta sección se proporciona un step-by-step proceso para crear este conjunto de datos.

Para preparar un conjunto de datos
  1. Defina el alcance: determine la industria o los sectores en los que se está centrando. Decida cuántas empresas quiere incluir. Y defina los criterios que desee recopilar sobre estas empresas, como el número de empleados, la ubicación o los ingresos.

  2. Identifique las fuentes de datos: identifique qué fuentes de información puede utilizar para recopilar información sobre estas empresas. Algunos ejemplos son los directorios de empresas (como Crunchbase, Bloomberg o Forbes), las bolsas de valores (como la Bolsa de Valores de Nueva York y el NASDAQ), las asociaciones o publicaciones específicas de un sector o las bases de datos gubernamentales (como las presentadas ante la SEC).

  3. Cree una tabla: en su herramienta preferida, como Microsoft Excel, Google Sheets o un sistema de administración de bases de datos, cree una tabla para recopilar los criterios de cada empresa. Incluye una columna para cada criterio. Como mínimo, incluye columnas para el nombre de la empresa, el dominio principal, los subdominios, el sector, el tamaño y la ubicación.

  4. Recopile la información inicial de la empresa: recopile la siguiente información sobre cada empresa e introdúzcala en la tabla que creó:

    • Nombre de la empresa

    • Industria o sector

    • Tamaño de la empresa (número de empleados)

    • Revenue (Ingresos)

    • Ubicación de la sede de la empresa

  5. Recopile información del dominio: para cada empresa, extraiga el nombre de dominio principal de la URL del sitio web principal, por ejemploexample.com. Puedes verificar la información del dominio mediante una herramienta de búsqueda de dominios de WHOIS.

  6. Recopile información sobre los subdominios: para cada empresa, investigue los subdominios registrados, por ejemplo. blog.example.com Puedes usar herramientas de enumeración de subdominios, como Sublist3r, OWASP Amass o Subfinder. Puedes realizar búsquedas en Google (mediante una búsquedasite:example.com), comprobar los registros de DNS mediante un dig comando o una herramienta de búsqueda de DNS, o puedes analizar los certificados SSL o TLS.

  7. Valida y limpia los datos: revisa, verifica y estandariza los datos que has recopilado. Por ejemplo, elimina las entradas duplicadas, elimina la información de URL innecesaria de los dominios y subdominios y comprueba que todos los dominios y subdominios estén activos.

  8. (Opcional) Clasifique los subdominios: puede clasificar los subdominios en tipos. A continuación, se muestran algunos ejemplos de categorías que puede encontrar:

    • Blogs, como blog.example.com

    • Support o ayuda, como support.example.com o help.example.com

    • Comercio electrónico, como shop.example.com o store.example.com

    • Recursos para desarrolladores, como dev.example.com o api.example.com

    • Regiones o ubicaciones, como us.example.com o uk.example.com

  9. (Opcional) Agregue metadatos relevantes: puede registrar cualquier metadato relevante en el conjunto de datos. Por ejemplo, puedes añadir la fecha de la última actualización, la fuente de información o tu puntuación de confianza para determinar la precisión del subdominio.

  10. Implemente el control de versiones: utilice un sistema de control de versiones, como Git, para realizar un seguimiento de los cambios en la tabla a lo largo del tiempo. Realice copias de seguridad del conjunto de datos con regularidad.

  11. Mantenga la tabla: establezca un cronograma, por ejemplo trimestral, para actualizar la tabla. Estandarice e implemente un proceso para agregar nuevas empresas o eliminar las que ya no necesite. Cuando sea posible, automatice la detección de subdominios.