웹 크롤러 통합 - Amazon Quick Suite

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

웹 크롤러 통합

Amazon Quick Suite의 웹 크롤러 통합을 사용하면 웹 페이지를 크롤링하고 인덱싱하여 웹 사이트 콘텐츠에서 지식 기반을 생성할 수 있습니다. 이 통합은 사용자 계층에 따라 다양한 인증 옵션으로 데이터 수집 기능을 지원합니다.

할 수 있는 작업

웹 크롤러 사용자는 웹 사이트 및 웹 페이지에 저장된 콘텐츠에 대해 질문할 수 있습니다. 예를 들어 사용자는 설명서 사이트, 지식 기반에 대해 질문하거나 여러 웹 페이지에서 특정 정보를 검색할 수 있습니다. 통합을 통해 사용자는 위치나 유형에 관계없이 웹 콘텐츠의 정보에 빠르게 액세스하고 이해할 수 있으며 게시 날짜, 수정 기록, 페이지 소유권과 같은 컨텍스트 세부 정보를 제공하여 보다 효율적인 정보 검색과 정보에 입각한 의사 결정에 기여합니다.

참고

웹 크롤러 통합은 데이터 수집만 지원합니다. 웹 사이트 또는 웹 서비스를 관리하기 위한 작업 기능은 제공하지 않습니다.

시작하기 전 준비 사항

웹 크롤러 통합을 설정하기 전에 다음이 있는지 확인합니다.

  • 크롤링 및 인덱싱할 웹 사이트 URLs.

  • Amazon Quick Suite Enterprise 구독

  • 크롤링하려는 웹 사이트는 퍼블릭이어야 하며 방화벽 뒤에 있거나 연결하기 위해 특수 브라우저 플러그인이 필요할 수 없습니다.

웹 사이트 액세스 및 인증 준비

Amazon Quick Suite에서 통합을 설정하기 전에 웹 사이트 액세스 자격 증명을 준비합니다. 웹 크롤러 통합은 사용자 역할에 따라 다양한 인증 방법을 지원합니다.

인증 없음

모든 사용자가 사용할 수 있습니다. 인증이 필요하지 않은 퍼블릭 웹 사이트를 크롤링하는 데 사용합니다.

기본 인증

보안 웹 사이트에 대한 표준 HTTP 기본 인증입니다. HTTP 기본 인증은 사용자 이름과 암호를 요구하여 웹 리소스를 보호하는 간단한 방법입니다. 기본 인증을 사용하여 보호된 사이트를 방문하면 자격 증명을 묻는 팝업 대화 상자가 브라우저에 표시됩니다.

필수 자격 증명:

  • 로그인 페이지 URL - 로그인 페이지의 URL

  • 사용자 이름 - 기본 인증 사용자 이름

  • 암호 - 기본 인증 암호

양식 인증

HTML 양식 기반 로그인 페이지를 사용하는 웹 사이트의 경우.

Form은 XPath를 분리할 수 있도록 로 설정됩니다. XPath(XML 경로 언어)는 HTML 또는 XML 문서의 요소 및 속성을 탐색하는 데 사용되는 쿼리 언어입니다. 웹 페이지 요소의 XPath를 식별하기 위해 사용자는 일반적으로 원하는 요소를 마우스 오른쪽 버튼으로 클릭하고 "검사"를 선택하거나 F12를 눌러 액세스할 수 있는 브라우저의 개발자 도구를 활용할 수 있습니다. 개발자 도구에서 요소가 강조 표시되면 사용자는 해당 HTML 코드를 마우스 오른쪽 버튼으로 클릭하고 "복사"를 선택한 다음 하위 메뉴에서 "XPath 복사"를 선택할 수 있습니다. 이렇게 하면 문서 구조에서 요소의 정확한 위치를 식별하는 고유한 경로가 생성됩니다. 결과 XPath는 //input[@id='username'] 또는 //button[@type='submit']과 비슷할 수 있습니다. 여기서 이중 슬래시(//)는 경로가 문서의 어느 곳에서든 시작될 수 있음을 나타내며, 대괄호에는 특정 요소를 식별하는 데 도움이 되는 속성이 포함되어 있습니다.

필수 정보:

  • 로그인 페이지 URL - 로그인 양식의 URL(예: https://example.com/login)

  • 사용자 이름 - 로그인 사용자 이름

  • 암호 - 로그인 암호

  • 사용자 이름 필드 XPath - 사용자 이름 입력 필드에 대한 XPath(예: //input[@id='username'])

  • 사용자 이름 버튼 XPath(선택 사항) - 사용자 이름에 대한 XPath 버튼 필드(예: //input[@id='username_button'])

  • 암호 필드 XPath - 암호 입력 필드에 대한 XPath(예: //input[@id='password'])

  • 암호 버튼 XPath - 암호에 대한 XPath 버튼(예: //button[@type='password'])

SAML 인증

SAML 기반 Single Sign-On 인증을 사용하는 웹 사이트의 경우.

SAML(Security Assertion Markup Language) 인증은 사용자가 각 애플리케이션에 자격 증명을 직접 입력하지 않고 중앙 집중식 자격 증명 공급자를 통해 인증할 수 있도록 하여 Single Sign-On(SSO)을 활성화하는 페더레이션 자격 증명 표준입니다. 사용자가 애플리케이션 로그인 페이지의 필드에 사용자 이름과 암호를 입력하는 기존 양식 인증과 달리 SAML은 사용자를 조직의 자격 증명 공급자(예: Microsoft Azure AD 또는 Okta)로 리디렉션하여 인증한 다음 보안 토큰을 애플리케이션에 다시 전달하여 액세스 권한을 부여합니다. 이 접근 방식은 여러 애플리케이션에서 원활한 사용자 경험, IT 관리자를 위한 중앙 집중식 사용자 관리, 다중 인증과 같은 기능을 통한 보안 강화를 제공하는 반면, 양식 인증에는 각 개별 애플리케이션에 대한 별도의 자격 증명 관리가 필요합니다.

필수 정보:

  • 로그인 페이지 URL - SAML 로그인 페이지의 URL

  • 사용자 이름 - SAML 사용자 이름

  • 암호 - SAML 암호

  • 사용자 이름 필드 XPath - 사용자 이름 입력 필드에 대한 XPath(예: //input[@id='username'])

  • 사용자 이름 버튼 XPath(선택 사항) - 사용자 이름에 대한 XPath 버튼 필드(예: //input[@id='username_button'])

  • 암호 필드 XPath - 암호 입력 필드에 대한 XPath(예: //input[@id='password'])

  • 암호 버튼 XPath - 암호에 대한 XPath 버튼(예: //button[@type='password'])

XPath 구성 예제

다음 XPath 예제를 사용하여 양식 및 SAML 인증을 구성합니다.

Username field examples: //input[@id='username'] //input[@name='user'] //input[@class='username-field'] Password field examples: //input[@id='password'] //input[@name='pass'] //input[@type='password'] Submit button examples: //button[@type='submit'] //input[@type='submit'] //button[contains(text(), 'Login')]

웹 크롤러 통합 설정

웹 사이트 액세스 요구 사항을 준비한 후 Amazon Quick Suite에서 웹 크롤러 통합을 생성합니다.

  1. Amazon Quick Suite 콘솔에서 통합을 선택합니다.

  2. 통합 옵션에서 웹 크롤러를 선택하고 추가 버튼(더하기 "+" 버튼)을 클릭합니다.

  3. 웹 크롤러에서 데이터 액세스를 선택합니다. 웹 크롤러 통합은 데이터 액세스만 지원합니다. 웹 크롤링에는 작업 실행을 사용할 수 없습니다.

  4. 통합 세부 정보 및 인증 방법을 구성한 다음 필요에 따라 지식 기반을 생성합니다.

    1. 웹 크롤러 통합의 인증 유형을 선택합니다.

    2. 선택한 인증 방법에 따라 필요한 세부 정보를 입력합니다.

    3. 생성 및 계속을 선택합니다.

    4. 지식 기반의 이름과 설명을 입력합니다.

    5. 크롤링하려는 콘텐츠 URLs 추가합니다.

    6. 생성을 선택합니다.

생성을 클릭하면 데이터 동기화가 자동으로 시작됩니다.

크롤링 구성

크롤링할 웹 사이트 및 페이지와 콘텐츠를 필터링하는 방법을 구성할 수 있습니다.

URLs 및 콘텐츠 소스 구성

크롤링할 웹 사이트 및 페이지를 구성합니다.

직접 URLs

크롤링할 개별 URLs 지정합니다.

https://example.com/docs https://example.com/blog https://example.com/support

제한: 데이터 세트당 최대 10URLs

콘텐츠 필터 및 크롤링 설정

범위 설정 크롤링

이러한 설정을 보려면 먼저 지식 기반을 설정한 다음 고급 설정 옵션을 검사해야 합니다.

크롤링 깊이
  • 범위: 0~10(기본값: 1)

  • 0 = 지정된 URLs만 크롤링

  • 1 = 한 수준 깊이로 연결된 페이지 포함

  • 값이 높을수록 사이트 심층 링크를 따릅니다.

페이지당 최대 링크 수
  • 기본값: 1000

  • 최댓값: 1,000

  • 각 페이지에서 따라야 할 링크 수를 제어합니다.

대기 시간
  • 기본값: 1

  • 페이지가 "페이지 준비 완료" 상태에 도달한 후 웹 크롤러가 각 페이지를 기다리는 시간입니다. 이는 기본 템플릿이 로드된 후 로드되는 콘텐츠 블록이 페이지에 있는 동적 자바스크립트 로드 특성이 있는 페이지에 유용합니다. 시각적으로 풍부한 콘텐츠가 있거나 로드 시간이 높을 것으로 예상되는 경우 대기 시간을 늘립니다.

지식 기반 관리

웹 크롤러 통합을 설정한 후 크롤링된 웹 사이트 콘텐츠에서 지식 기반을 생성하고 관리할 수 있습니다.

기존 지식 기반 편집

기존 웹 크롤러 지식 기반을 수정할 수 있습니다.

  1. Amazon Quick Suite 콘솔에서 지식 기반을 선택합니다.

  2. 목록에서 웹 크롤러 지식 기반을 선택합니다.

  3. 작업에서 점 3개 아이콘을 선택한 다음 지식 기반 편집을 선택합니다.

  4. 필요에 따라 구성 설정을 업데이트하고 저장을 선택합니다.

추가 지식 기반 생성

동일한 웹 크롤러 통합에서 여러 지식 기반을 생성할 수 있습니다.

  1. Amazon Quick Suite 콘솔에서 통합을 선택한 다음 데이터 탭을 선택합니다.

  2. 목록에서 기존 웹 크롤러 통합을 선택합니다.

  3. 작업에서 점 3개 아이콘을 선택한 다음 지식 기반 생성을 선택합니다.

  4. 지식 기반 설정을 구성하고 생성을 선택합니다.

지식 기반 구성 옵션에 대한 자세한 내용은 섹션을 참조하세요공통 구성 설정.

첨부 파일 및 파일 크롤링

시스템이 웹 페이지에서 연결된 파일 및 첨부 파일을 처리하는지 여부를 제어합니다.

  • 파일 첨부 파일 크롤링 활성화 - PDFs, 문서, 미디어 파일 등 웹 페이지에 있는 파일 및 첨부 파일을 크롤링하고 인덱싱하려면이 옵션을 선택합니다.

크롤링 동작 및 동기화 구성

웹 크롤러 통합은 다음 크롤링 관행을 따릅니다.

  • 증분 동기화 모델: 첫 번째 동기화는 전체 크롤링을 수행하고 후속 동기화는 변경 사항만 캡처합니다.

  • 자동 재시도: 실패한 요청에 대한 기본 제공 재시도 로직

  • 중복 처리: URLs 자동 감지 및 처리

  • 크롤러 식별: 요청 헤더에서 사용자 에이전트 문자열 "aws-quick-on-behalf-of-<UUID>"로 자신을 식별합니다.

Robots.txt 규정 준수

웹 크롤러는 robots.txt 프로토콜을 존중하고 사용자 에이전트 및 허용/허용 명령을 준수합니다. 이렇게 하면 크롤러가 사이트에 액세스하는 방식을 제어할 수 있습니다.

robots.txt 검사 작동 방식
  • 호스트 수준 확인: 웹 크롤러가 호스트 수준에서 robots.txt 파일을 읽습니다(예: example.com/robots.txt).

  • 다중 호스트 지원: 여러 호스트가 있는 도메인의 경우 Web Crawler는 각 호스트에 대한 로봇 규칙을 개별적으로 준수합니다.

  • 폴백 동작: 차단, 구문 분석 오류 또는 제한 시간으로 인해 웹 크롤러가 robots.txt를 가져올 수 없는 경우 robots.txt가 존재하지 않고 사이트를 크롤링하는 것처럼 동작합니다.

지원되는 robots.txt 필드

웹 크롤러는 이러한 robots.txt 필드를 인식합니다(필드 이름은 대소문자를 구분하지 않고 값은 대소문자를 구분함).

user-agent

규칙이 적용되는 크롤러 식별

allow

크롤링할 수 있는 URL 경로

disallow

크롤링할 수 없는 URL 경로

sitemap

사이트맵의 전체 URL

crawl-delay

웹 사이트에 대한 요청 사이를 기다리는 지정된 시간(초)

메타 태그 지원

웹 크롤러는 데이터 사용 방식을 제어하는 데 사용할 수 있는 페이지 수준 로봇 메타 태그를 지원합니다. HTML 페이지 또는 HTTP 헤더에 메타 태그를 포함하여 페이지 수준 설정을 지정할 수 있습니다.

지원되는 메타 태그
noindex

페이지를 인덱싱하지 마십시오. 이 규칙을 지정하지 않으면 페이지가 인덱싱되어 경험에 나타날 수 있습니다.

nofollow

이 페이지의 링크를 따르지 마십시오. 이 규칙을 지정하지 않으면 웹 크롤러가 페이지의 링크를 사용하여 연결된 페이지를 검색할 수 있습니다.

쉼표를 사용하여 여러 값을 결합할 수 있습니다(예: "noindex, noFollow").

참고

메타 태그를 감지하려면 웹 크롤러가 페이지에 액세스해야 하므로 robots.txt로 페이지를 차단하면 페이지가 다시 크롤링되지 않습니다.

문제 해결

이 섹션을 사용하여 웹 크롤러 통합과 관련된 일반적인 문제를 해결합니다.

인증 실패 횟수

증상:

  • "인증할 수 없음" 오류 메시지

  • 401/403 HTTP 응답

  • 로그인 페이지 리디렉션 루프

  • 세션 제한 시간 오류

해결 단계:

  1. Amazon Quick Suite 인스턴스가 설정된 AWS 리전에서 사이트에 연결할 수 있는지 확인합니다.

  2. 자격 증명 정확도를 확인하고 만료되지 않았는지 확인합니다.

  3. 인증 엔드포인트 가용성 및 접근성 확인

  4. 브라우저 개발자 도구에서 구성을 테스트하여 XPath 구성 검증

  5. 브라우저 네트워크 로그를 검토하여 인증 흐름 이해

  6. 로그인 페이지 URL이 올바르고 액세스 가능한지 확인

  7. 동일한 자격 증명을 사용하여 수동으로 인증 테스트

액세스 및 연결 문제

증상:

  • 연결 제한 시간 및 네트워크 오류

  • 네트워크에 연결할 수 없는 오류

  • DNS 확인 실패

해결 단계:

  1. 대상 웹 사이트에 대한 네트워크 연결 확인

  2. 사이트 접근성 검증:

    • 대상 도메인의 DNS 확인 확인

    • SSL/TLS 구성 및 인증서 확인

    • 가능한 경우 다른 네트워크에서 액세스 테스트

크롤링 및 콘텐츠 문제

증상:

  • 누락되거나 불완전한 콘텐츠

  • 불완전한 크롤링 또는 조기 종료

  • 속도 제한 오류(429개 응답)

  • 콘텐츠가 제대로 인덱싱되지 않음

해결 단계:

  1. robots.txt 제한 사항 검토:

    • robots.txt 파일에서 크롤링 제한 확인

    • 크롤러가 대상 경로에 액세스할 수 있는지 확인

    • robots.txt 규정 준수가 콘텐츠를 차단하지 않는지 확인

  2. 속도 제한 및 제한 확인:

    • 응답 헤더에서 속도 제한 정보 모니터링

    • 적절한 크롤링 지연 구현

  3. URL 패턴 및 필터를 확인합니다.

    • 정규식 패턴의 정확도 테스트

    • URL 형식 및 구조 확인

    • 패턴 로직 포함/제외 검증

  4. 콘텐츠 제한을 검토합니다.

    • 페이지에서 Noindex 메타 태그 확인

    • 콘텐츠 유형 지원 확인

    • 콘텐츠 크기가 한도 내에 있는지 확인

  5. 크롤링을 시도하기 전에 콘텐츠가 페이지에 로드되도록 대기 시간을 적절한 값으로 업데이트합니다.

알려진 제한 사항

웹 크롤러 통합에는 다음과 같은 제한 사항이 있습니다.

  • URL 제한: 최대 10URLs, 사이트맵은 지원되지 않음

  • 크롤링 깊이: 레벨 10의 최대 크롤링 깊이

  • 보안 요구 사항: 웹 프록시 구성에 필요한 HTTPS