Preparando um conjunto de dados - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Preparando um conjunto de dados

Se você ainda não tiver feito isso, prepare um conjunto de dados detalhado dos sites dos quais você deseja coletar informações. Esse conjunto de dados deve incluir nomes de domínio do URL do site e nomes de subdomínios relevantes. Esta seção fornece um step-by-step processo para criar esse conjunto de dados.

Para preparar um conjunto de dados
  1. Defina o escopo — determine o setor ou os setores em que você está se concentrando. Decida quantas empresas incluir. E defina todos os critérios que você deseja coletar sobre essas empresas, como número de funcionários, localização ou receita.

  2. Identificar fontes de dados — Identifique quais fontes de informação você pode usar para coletar informações sobre essas empresas. Os exemplos incluem diretórios comerciais (como Crunchbase, Bloomberg ou Forbes), bolsas de valores (como NYSE e NASDAQ), associações ou publicações específicas do setor ou bancos de dados governamentais (como registros da SEC).

  3. Crie uma tabela — Em sua ferramenta preferida, como Microsoft Excel, Planilhas Google ou um sistema de gerenciamento de banco de dados, crie uma tabela para coletar critérios sobre cada empresa. Inclua uma coluna para cada critério. No mínimo, inclua colunas para o nome da empresa, domínio principal, subdomínios, setor, tamanho e localização.

  4. Colete as informações iniciais da empresa — Colete as seguintes informações sobre cada empresa e insira-as na tabela que você criou:

    • Company name (Nome da empresa)

    • Indústria ou setor

    • Porte da empresa (número de funcionários)

    • Revenue (Receita)

    • Localização da sede da empresa

  5. Colete informações de domínio — Para cada empresa, extraia o nome de domínio principal do URL do site principal, comoexample.com. Você pode verificar as informações do domínio usando uma ferramenta de pesquisa de domínio WHOIS.

  6. Reúna informações do subdomínio — Para cada empresa, pesquise os subdomínios registrados, como. blog.example.com Você pode usar ferramentas de enumeração de subdomínios, como Sublist3r, OWASP Amass ou Subfinder. Você pode executar o Google dorking (pesquisandosite:example.com), verificar os registros DNS usando um dig comando ou uma ferramenta de pesquisa de DNS ou analisar certificados SSL ou TLS.

  7. Valide e limpe os dados — revise, verifique e padronize os dados que você coletou. Por exemplo, remova todas as entradas duplicadas, remova informações de URL desnecessárias de domínios e subdomínios e verifique se todos os domínios e subdomínios estão ativos.

  8. (Opcional) Categorize os subdomínios — Você pode categorizar os subdomínios em tipos. A seguir estão alguns exemplos de categorias que você pode encontrar:

    • Blogs, como blog.example.com

    • Support ou ajuda, como support.example.com ou help.example.com

    • Comércio eletrônico, como shop.example.com ou store.example.com

    • Recursos para desenvolvedores, como dev.example.com ou api.example.com

    • Regiões ou locais, como us.example.com ou uk.example.com

  9. (Opcional) Adicionar metadados relevantes — Você pode registrar qualquer metadado relevante no conjunto de dados. Por exemplo, você pode adicionar a data da última atualização, a fonte das informações ou sua pontuação de confiança para a precisão do subdomínio.

  10. Implemente o controle de versão — Use um sistema de controle de versão, como o Git, para acompanhar as alterações na tabela ao longo do tempo. Faça backup do conjunto de dados regularmente.

  11. Manter a tabela — Configure um cronograma, como trimestral, para atualizar a tabela. Padronize e implemente um processo para adicionar novas empresas ou remover aquelas que você não precisa mais. Quando possível, automatize a descoberta de subdomínios.