Preparazione di un set di dati - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione di un set di dati

Se non l'hai già fatto, prepara un set di dati dettagliato dei siti Web da cui desideri raccogliere informazioni. Questo set di dati dovrebbe includere gli URL dei siti Web, i nomi di dominio e i relativi sottodomini. Questa sezione fornisce un step-by-step processo per la creazione di questo set di dati.

Per preparare un set di dati
  1. Definisci l'ambito: determina il settore o i settori su cui ti stai concentrando. Decidi quante aziende includere. E definisci tutti i criteri che desideri raccogliere su queste aziende, come il numero di dipendenti, l'ubicazione o il fatturato.

  2. Identifica le fonti di dati: identifica le fonti di informazioni che puoi utilizzare per raccogliere informazioni su queste aziende. Gli esempi includono elenchi aziendali (come Crunchbase, Bloomberg o Forbes), borse (come NYSE e NASDAQ), associazioni o pubblicazioni specifiche del settore o database governativi (come i documenti della SEC).

  3. Crea una tabella: nel tuo strumento preferito, come Microsoft Excel, Google Sheets o un sistema di gestione di database, crea una tabella per raccogliere i criteri relativi a ciascuna azienda. Includi una colonna per ogni criterio. Includi almeno le colonne per il nome dell'azienda, il dominio principale, i sottodomini, il settore, le dimensioni e l'ubicazione.

  4. Raccogli le informazioni iniziali sull'azienda: raccogli le seguenti informazioni su ciascuna società e inseriscile nella tabella che hai creato:

    • Company name (Nome dell'azienda)

    • Industria o settore

    • Dimensioni dell'azienda (numero di dipendenti)

    • Revenue (Fatturato)

    • Ubicazione della sede centrale dell'azienda

  5. Raccogli informazioni sul dominio: per ogni azienda, estrai il nome di dominio principale dall'URL del sito Web principale, ad esempioexample.com. Puoi verificare le informazioni sul dominio utilizzando uno strumento di ricerca del dominio WHOIS.

  6. Raccogli informazioni sui sottodomini: per ogni azienda, cerca i sottodomini registrati, ad esempio. blog.example.com Puoi utilizzare strumenti di enumerazione dei sottodomini, come Sublist3r, OWASP Amass o Subfinder. Puoi eseguire ricerche su Google (effettuando una ricercasite:example.com), controllare i record DNS utilizzando un dig comando o uno strumento di ricerca DNS oppure puoi analizzare i certificati SSL o TLS.

  7. Convalida e pulisci i dati: rivedi, verifica e standardizza i dati che hai raccolto. Ad esempio, rimuovi eventuali voci duplicate, rimuovi le informazioni URL non necessarie da domini e sottodomini e verifica che tutti i domini e i sottodomini siano attivi.

  8. (Facoltativo) Categorizza i sottodomini: puoi suddividere i sottodomini in tipi. Di seguito sono riportati alcuni esempi di categorie che potresti incontrare:

    • Blog, come blog.example.com

    • Support o assistenza, ad esempio support.example.com o help.example.com

    • Commercio elettronico, ad esempio shop.example.com o store.example.com

    • Risorse per sviluppatori, ad esempio dev.example.com o api.example.com

    • Regioni o località, ad esempio us.example.com o uk.example.com

  9. (Facoltativo) Aggiungi metadati pertinenti: puoi registrare tutti i metadati pertinenti nel set di dati. Ad esempio, puoi aggiungere la data dell'ultimo aggiornamento, la fonte delle informazioni o il tuo punteggio di fiducia per la precisione del sottodominio.

  10. Implementa il controllo della versione: utilizza un sistema di controllo della versione, come Git, per tenere traccia delle modifiche alla tabella nel tempo. Esegui regolarmente il backup del set di dati.

  11. Gestisci la tabella: imposta una pianificazione, ad esempio trimestrale, per l'aggiornamento della tabella. Standardizza e implementa un processo per aggiungere nuove società o rimuovere quelle che non ti servono più. Quando possibile, automatizza l'individuazione dei sottodomini.