Amazon Kendra 웹 크롤러가 웹 사이트에 액세스하는 방법 구성 Amazon Kendra 웹 크롤러의 웹 사이트 크롤링 중지

Amazon Kendra 웹 크롤러용 `robots.txt` 파일 구성

Amazon Kendra 는 AWS 고객이 원하는 문서를 인덱싱하고 검색하는 데 사용하는 지능형 검색 서비스입니다. 웹에서 문서를 인덱싱하기 위해 고객은 Amazon Kendra 웹 크롤러를 사용하여 인덱싱해야 하는 URL과 기타 운영 파라미터를 표시할 수 있습니다. Amazon Kendra 고객은 특정 웹 사이트를 인덱싱하기 전에 승인을 받아야 합니다.

Amazon Kendra 웹 크롤러는 Allow 및와 같은 표준 robots.txt 명령을 준수합니다Disallow. 웹 사이트의 robots.txt 파일을 수정하여 Amazon Kendra 웹 크롤러가 웹 사이트를 크롤링하는 방식을 제어할 수 있습니다.

Amazon Kendra 웹 크롤러가 웹 사이트에 액세스하는 방법 구성

Allow 및 Disallow 명령을 사용하여 Amazon Kendra 웹 크롤러가 웹 사이트를 인덱싱하는 방법을 제어할 수 있습니다. 또한 인덱싱되는 웹 페이지와 크롤링되지 않는 웹 페이지를 제어할 수 있습니다.

Amazon Kendra Web Crawler가 허용되지 않는 웹 페이지를 제외한 모든 웹 페이지를 크롤링하도록 허용하려면 다음 지시문을 사용합니다.


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Disallow: /credential-pages/ # disallow access to specific pages

Amazon Kendra 웹 크롤러가 특정 웹 페이지만 크롤링하도록 허용하려면 다음 명령을 사용합니다.


User-agent: amazon-kendra    # Amazon Kendra Web Crawler
Allow: /pages/ # allow access to specific pages

Amazon Kendra 웹 크롤러가 모든 웹 사이트 콘텐츠를 크롤링하고 다른 로봇에 대한 크롤링을 허용하지 않도록 하려면 다음 명령을 사용합니다.


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Allow: / # allow access to all pages
User-agent: * # any (other) robot
Disallow: / # disallow access to any pages

Amazon Kendra 웹 크롤러의 웹 사이트 크롤링 중지

Disallow 지시문을 사용하여 Amazon Kendra 웹 크롤러가 웹 사이트를 인덱싱하지 못하도록 할 수 있습니다. 또한 인덱싱되는 웹 페이지와 크롤링되지 않는 웹 페이지를 제어할 수 있습니다.

Amazon Kendra 웹 크롤러가 웹 사이트를 크롤링하지 못하도록 하려면 다음 명령을 사용합니다.


User-agent: amazon-kendra # Amazon Kendra Web Crawler
Disallow: / # disallow access to any pages

Amazon Kendra 웹 크롤러와 관련하여 질문이나 우려 사항이 있는 경우 AWS 지원 팀에 문의할 수 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon Kendra 웹 크롤러 커넥터 v2.0

Box

Amazon Kendra 웹 크롤러용 robots.txt 파일 구성

Amazon Kendra 웹 크롤러가 웹 사이트에 액세스하는 방법 구성

Amazon Kendra 웹 크롤러의 웹 사이트 크롤링 중지

Amazon Kendra 웹 크롤러용 `robots.txt` 파일 구성