기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
데이터 세트 준비
아직 그렇게 하지 않았다면 정보를 수집하려는 웹 사이트의 세부 데이터 세트를 준비합니다. 이 데이터 세트에는 웹 사이트 URL 도메인 이름과 관련 하위 도메인 이름이 포함되어야 합니다. 이 섹션에서는이 데이터 세트를 빌드하기 위한 step-by-step 프로세스를 제공합니다.
데이터 세트를 준비하려면
-
범위 정의 - 집중하고 있는 산업 또는 부문을 결정합니다. 포함할 회사 수를 결정합니다. 그리고 직원 수, 위치 또는 수익과 같이 이러한 회사에 대해 수집하려는 기준을 정의합니다.
-
데이터 소스 식별 - 이러한 회사에 대한 정보를 수집하는 데 사용할 수 있는 정보 소스를 식별합니다. 예를 들어 비즈니스 디렉터리(예: Crunchbase
, Inventory 또는 Forbes ), 증권 거래소(예: NYSE 및 NASDAQ), 산업별 연결 또는 간행물, 정부 데이터베이스(예: SEC 파일) 등이 있습니다. -
테이블 생성 - Microsoft Excel, Google Sheets 또는 데이터베이스 관리 시스템과 같은 기본 도구에서 각 회사에 대한 기준을 수집하기 위한 테이블을 생성합니다. 각 기준에 대한 열을 포함합니다. 최소한 회사 이름, 기본 도메인, 하위 도메인, 산업, 크기 및 위치에 대한 열을 포함합니다.
-
초기 회사 정보 수집 - 각 회사에 대한 다음 정보를 수집하여 생성한 테이블에 입력합니다.
-
회사 이름
-
산업 또는 섹터
-
회사 규모(직원 수)
-
수익
-
회사 본사 위치
-
-
도메인 정보 수집 - 각 회사에 대해와 같은 기본 웹 사이트 URL에서 기본 도메인 이름을 추출합니다
example.com
. WHOIS 도메인 조회 도구를 사용하여 도메인 정보를 확인할 수 있습니다. -
하위 도메인 정보 수집 - 각 회사에 대해와 같이 등록된 하위 도메인을 조사합니다
blog.example.com
. Sublist3r, OWASP Amass 또는 Subfinder 와 같은 하위 도메인 열거 도구를 사용할 수 있습니다. Google dorking을 수행하거나(를 검색하여 site:example.com
),dig
명령 또는 DNS 조회 도구를 사용하여 DNS 레코드를 확인하거나, SSL 또는 TLS 인증서를 분석할 수 있습니다. -
데이터를 검증하고 정리 "– 수집한 데이터를 검토, 확인 및 표준화합니다. 예를 들어 중복 항목을 제거하고, 도메인 및 하위 도메인에서 불필요한 URL 정보를 제거하고, 모든 도메인 및 하위 도메인이 활성 상태인지 확인합니다.
-
(선택 사항) 하위 도메인 분류 - 하위 도메인을 유형으로 분류할 수 있습니다. 다음은 발생할 수 있는 범주의 몇 가지 예입니다.
-
와 같은 블로그
blog.example.com
-
또는와 같은 지원
support.example.com
또는 도움말help.example.com
-
shop.example.com
또는와 같은 전자 상거래store.example.com
-
dev.example.com
또는와 같은 개발자 리소스api.example.com
-
us.example.com
또는와 같은 리전 또는 위치uk.example.com
-
-
(선택 사항) 관련 메타데이터 추가 - 데이터 세트에 관련 메타데이터를 기록할 수 있습니다. 예를 들어 마지막으로 업데이트된 날짜, 정보 소스 또는 하위 도메인 정확도에 대한 신뢰도 점수를 추가할 수 있습니다.
-
버전 관리 구현 - Git과 같은 버전 관리 시스템을 사용하여 시간 경과에 따른 테이블 변경 사항을 추적합니다. 데이터 세트를 정기적으로 백업합니다.
-
테이블 유지 관리 - 테이블 업데이트 일정을 분기별로 설정합니다. 새 회사를 추가하거나 더 이상 필요하지 않은 회사를 제거하는 프로세스를 표준화하고 구현합니다. 가능하면 하위 도메인 검색을 자동화합니다.