Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mempersiapkan dataset
Jika Anda belum melakukannya, siapkan kumpulan data terperinci dari situs web yang ingin Anda kumpulkan informasinya. Dataset ini harus menyertakan nama domain URL situs web dan nama subdomain yang relevan. Bagian ini menyediakan step-by-step proses untuk membangun kumpulan data ini.
Untuk menyiapkan dataset
-
Tentukan ruang lingkup — Tentukan industri atau sektor yang Anda fokuskan. Tentukan berapa banyak perusahaan yang akan dimasukkan. Dan tentukan kriteria apa pun yang ingin Anda kumpulkan tentang perusahaan-perusahaan ini, seperti jumlah karyawan, lokasi, atau pendapatan.
-
Identifikasi sumber data — Identifikasi sumber informasi apa yang dapat Anda gunakan untuk mengumpulkan informasi tentang perusahaan-perusahaan ini. Contohnya termasuk direktori bisnis (seperti Crunchbase
, Bloomberg , atau Forbes ), bursa saham (seperti NYSE dan NASDAQ), asosiasi atau publikasi khusus industri, atau database pemerintah (seperti pengajuan SEC). -
Buat tabel — Di alat pilihan Anda, seperti Microsoft Excel, Google Spreadsheet, atau sistem manajemen database, buat tabel untuk mengumpulkan kriteria tentang setiap perusahaan. Sertakan kolom untuk setiap kriteria. Minimal, sertakan kolom untuk nama perusahaan, domain utama, subdomain, industri, ukuran, dan lokasi.
-
Kumpulkan informasi awal perusahaan — Kumpulkan informasi berikut tentang masing-masing perusahaan dan masukkan ke dalam tabel yang Anda buat:
-
Nama perusahaan
-
Industri atau sektor
-
Ukuran perusahaan (jumlah karyawan)
-
Pendapatan
-
Lokasi kantor pusat perusahaan
-
-
Kumpulkan informasi domain — Untuk setiap perusahaan, ekstrak nama domain utama dari URL situs web utama, seperti
example.com
. Anda dapat memverifikasi informasi domain dengan menggunakan alat pencarian domain WHOIS. -
Kumpulkan informasi subdomain — Untuk setiap perusahaan, teliti subdomain terdaftar, seperti.
blog.example.com
Anda dapat menggunakan alat enumerasi subdomain, seperti Sublist3r, OWASP Amass, atau Subfinder. Anda dapat melakukan Google dorking (dengan mencari site:example.com
), memeriksa catatan DNS dengan menggunakandig
perintah atau alat pencarian DNS, atau Anda dapat menganalisis sertifikat SSL atau TLS. -
Validasi dan bersihkan data — Tinjau, verifikasi, dan standarisasi data yang telah Anda kumpulkan. Misalnya, hapus entri duplikat, hapus informasi URL yang tidak perlu dari domain dan subdomain, dan verifikasi bahwa semua domain dan subdomain aktif.
-
(Opsional) Kategorikan subdomain — Anda dapat mengkategorikan subdomain ke dalam tipe. Berikut ini adalah beberapa contoh kategori yang mungkin Anda temui:
-
Blog, seperti
blog.example.com
-
Support atau bantuan, seperti
support.example.com
atauhelp.example.com
-
E-commerce, seperti
shop.example.com
ataustore.example.com
-
Sumber daya pengembang, seperti
dev.example.com
atauapi.example.com
-
Daerah atau lokasi, seperti
us.example.com
atauuk.example.com
-
-
(Opsional) Tambahkan metadata yang relevan — Anda dapat merekam metadata yang relevan dalam kumpulan data. Misalnya, Anda dapat menambahkan tanggal terakhir yang diperbarui, sumber informasi, atau skor kepercayaan diri Anda untuk akurasi subdomain.
-
Menerapkan kontrol versi — Gunakan sistem kontrol versi, seperti Git, untuk melacak perubahan pada tabel dari waktu ke waktu. Cadangkan dataset secara teratur.
-
Pertahankan tabel — Siapkan jadwal, seperti triwulanan, untuk memperbarui tabel. Standarisasi dan terapkan proses untuk menambahkan perusahaan baru atau menghapus yang tidak lagi Anda butuhkan. Jika memungkinkan, otomatiskan penemuan subdomain.