Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation d'un jeu de données
Si vous ne l'avez pas déjà fait, préparez un ensemble de données détaillé des sites Web à partir desquels vous souhaitez collecter des informations. Cet ensemble de données doit inclure les URL des sites Web, les noms de domaine et les noms de sous-domaines pertinents. Cette section décrit le step-by-step processus de création de cet ensemble de données.
Pour préparer un jeu de données
-
Définissez le champ d'application : déterminez le ou les secteurs sur lesquels vous vous concentrez. Décidez du nombre d'entreprises à inclure. Et définissez tous les critères que vous souhaitez collecter à propos de ces entreprises, tels que le nombre d'employés, l'emplacement ou le chiffre d'affaires.
-
Identifier les sources de données — Identifiez les sources d'informations que vous pouvez utiliser pour collecter des informations sur ces entreprises. Les exemples incluent les annuaires professionnels (tels que Crunchbase
, Bloomberg ou Forbes ), les bourses (comme le NYSE et le NASDAQ), les associations ou publications sectorielles, ou les bases de données gouvernementales (telles que les dossiers déposés auprès de la SEC). -
Création d'un tableau : dans votre outil préféré, tel que Microsoft Excel, Google Sheets ou un système de gestion de base de données, créez un tableau pour recueillir les critères relatifs à chaque entreprise. Incluez une colonne pour chaque critère. Incluez au minimum des colonnes pour le nom de l'entreprise, le domaine principal, les sous-domaines, le secteur d'activité, la taille et l'emplacement.
-
Collectez les informations initiales sur l'entreprise : collectez les informations suivantes sur chaque entreprise et saisissez-les dans le tableau que vous avez créé :
-
Nom de la société
-
Industrie ou secteur
-
Taille de l'entreprise (nombre d'employés)
-
Revenue (Revenus)
-
Emplacement du siège social de l'entreprise
-
-
Recueillir des informations sur le domaine — Pour chaque entreprise, extrayez le nom de domaine principal de l'URL du site Web principal, par exemple
example.com
. Vous pouvez vérifier les informations du domaine à l'aide d'un outil de recherche de domaine WHOIS. -
Recueillez des informations sur les sous-domaines : pour chaque entreprise, recherchez les sous-domaines enregistrés, tels que.
blog.example.com
Vous pouvez utiliser des outils d'énumération de sous-domaines, tels que Sulist3r, OWASPAmass ou Subfinder . Vous pouvez effectuer un dorking sur Google (en effectuant une recherche site:example.com
), vérifier les enregistrements DNS à l'aide d'unedig
commande ou d'un outil de recherche DNS, ou vous pouvez analyser les certificats SSL ou TLS. -
Validez et nettoyez les données : passez en revue, vérifiez et normalisez les données que vous avez collectées. Supprimez par exemple les entrées dupliquées, supprimez les informations URL inutiles des domaines et des sous-domaines, et vérifiez que tous les domaines et sous-domaines sont actifs.
-
(Facultatif) Catégorisez les sous-domaines : vous pouvez classer les sous-domaines en types. Voici quelques exemples de catégories que vous pourriez rencontrer :
-
Des blogs, tels que
blog.example.com
-
Support ou aide, tels que
support.example.com
ouhelp.example.com
-
Le commerce électronique, tel que
shop.example.com
oustore.example.com
-
Des ressources pour les développeurs, telles que
dev.example.com
ouapi.example.com
-
Régions ou lieux, tels que
us.example.com
ouuk.example.com
-
-
(Facultatif) Ajoutez des métadonnées pertinentes : vous pouvez enregistrer toutes les métadonnées pertinentes dans l'ensemble de données. Par exemple, vous pouvez ajouter la date de dernière mise à jour, la source des informations ou votre score de confiance pour la précision des sous-domaines.
-
Mettre en œuvre le contrôle de version : utilisez un système de contrôle de version, tel que Git, pour suivre les modifications apportées à la table au fil du temps. Sauvegardez régulièrement le jeu de données.
-
Tenir à jour le tableau : établissez un calendrier, par exemple trimestriel, pour la mise à jour du tableau. Standardisez et mettez en œuvre un processus pour ajouter de nouvelles entreprises ou supprimer celles dont vous n'avez plus besoin. Dans la mesure du possible, automatisez la découverte des sous-domaines.