Amazon Kendra 웹 크롤러 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Kendra 웹 크롤러

Amazon Kendra Web Crawler를 사용하여 웹 페이지를 크롤링하고 인덱싱할 수 있습니다.

보안 통신 프로토콜인 HTTPS(Hypertext Transfer Protocol Secure)를 사용하는 공개 웹 사이트 또는 회사 내부 웹사이트만 크롤링할 수 있습니다. 웹 사이트를 크롤링할 때 오류가 발생하면 웹 사이트가 크롤링되지 않도록 차단되었을 수 있습니다. 내부 웹 사이트를 크롤링하기 위해 웹 프록시를 설정할 수 있습니다. 이 웹 프록시는 공개용이어야 합니다. 인증을 사용하여 웹 사이트에 액세스하고 크롤링할 수도 있습니다.

인덱싱할 웹 사이트를 선택할 때 Amazon 이용 정책과 기타 모든 Amazon 약관을 준수해야 합니다. Amazon Kendra 웹 크롤러는 자신의 웹 페이지 또는 인덱싱할 권한이 있는 웹 페이지를 인덱싱할 때만 사용해야 한다는 점을 기억하십시오. Amazon Kendra Web Crawler가 웹 사이트를 인덱싱하지 못하게 하는 방법을 알아보려면 을 참조하십시오. Amazon Kendra 웹 크롤러용 robots.txt 파일 구성

참고

Amazon Kendra 웹 크롤러를 남용하여 소유하지 않은 웹 사이트 또는 웹 페이지를 공격적으로 크롤링하는 행위는 허용되는 사용으로 간주되지 않습니다.

Amazon Kendra 커넥터에는 두 가지 버전이 있습니다. web crawler 각 버전에 지원되는 기능은 다음과 같습니다.

Amazon Kendra 웹 크롤러 커넥터 v1.0/ API WebCrawlerConfiguration

  • 웹 프록시

  • 포함/제외 필터

Amazon Kendra 웹 크롤러 커넥터 v2.0/ API TemplateConfiguration

  • 필드 매핑

  • 포함/제외 필터

  • 전체 및 증분 콘텐츠 동기화

  • 웹 프록시

  • 웹 사이트를 위한 기본, NTLM/Kerberos, SAML 및 양식 인증

  • Virtual Private Cloud(VPC)

중요

웹 크롤러 v2.0 커넥터 생성은 에서 지원되지 않습니다. AWS CloudFormation지원이 필요한 경우 웹 크롤러 v1.0 커넥터를 사용하십시오. AWS CloudFormation

Amazon Kendra 웹 크롤러 데이터 원본 커넥터의 문제를 해결하려면 을 참조하십시오. 데이터 소스 문제 해결