기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Kendra 웹 크롤러
Amazon Kendra Web Crawler를 사용하여 웹 페이지를 크롤링하고 인덱싱할 수 있습니다.
보안 통신 프로토콜인 HTTPS(Hypertext Transfer Protocol Secure)를 사용하는 공개 웹 사이트 또는 회사 내부 웹사이트만 크롤링할 수 있습니다. 웹 사이트를 크롤링할 때 오류가 발생하면 웹 사이트가 크롤링되지 않도록 차단되었을 수 있습니다. 내부 웹 사이트를 크롤링하기 위해 웹 프록시를 설정할 수 있습니다. 이 웹 프록시는 공개용이어야 합니다. 인증을 사용하여 웹 사이트에 액세스하고 크롤링할 수도 있습니다.
인덱싱할 웹 사이트를 선택할 때 Amazon 이용 정책
참고
Amazon Kendra 웹 크롤러를 남용하여 소유하지 않은 웹 사이트 또는 웹 페이지를 공격적으로 크롤링하는 행위는 허용되는 사용으로 간주되지 않습니다.
Amazon Kendra 커넥터에는 두 가지 버전이 있습니다. web crawler 각 버전에 지원되는 기능은 다음과 같습니다.
Amazon Kendra 웹 크롤러 커넥터 v1.0/ API WebCrawlerConfiguration
-
웹 프록시
-
포함/제외 필터
Amazon Kendra 웹 크롤러 커넥터 v2.0/ API TemplateConfiguration
-
필드 매핑
-
포함/제외 필터
-
전체 및 증분 콘텐츠 동기화
-
웹 프록시
-
웹 사이트를 위한 기본, NTLM/Kerberos, SAML 및 양식 인증
-
Virtual Private Cloud(VPC)
중요
웹 크롤러 v2.0 커넥터 생성은 에서 지원되지 않습니다. AWS CloudFormation지원이 필요한 경우 웹 크롤러 v1.0 커넥터를 사용하십시오. AWS CloudFormation
Amazon Kendra 웹 크롤러 데이터 원본 커넥터의 문제를 해결하려면 을 참조하십시오. 데이터 소스 문제 해결