Amazon Kendra 웹 크롤러용 robots.txt 파일 구성 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Kendra 웹 크롤러용 robots.txt 파일 구성

Amazon Kendra AWS 고객이 원하는 문서를 인덱싱하고 검색하는 데 사용하는 지능형 검색 서비스입니다. 웹에서 문서를 인덱싱하기 위해 고객은 인덱싱해야 하는 URL과 기타 운영 매개 변수를 나타내는 Amazon Kendra Web Crawler를 사용할 수 있습니다. Amazon Kendra 고객은 특정 웹 사이트를 인덱싱하기 전에 승인을 받아야 합니다.

Amazon Kendra 웹 크롤러는 및 와 같은 표준 robots.txt 지침을 준수합니다. Allow Disallow 웹 사이트 robots.txt 파일을 수정하여 웹 크롤러가 웹 사이트를 크롤링하는 방식을 Amazon Kendra 제어할 수 있습니다.

웹 크롤러가 Amazon Kendra 웹 사이트에 액세스하는 방법 구성

Amazon Kendra 웹 크롤러가 및 지시문을 사용하여 웹 사이트를 인덱싱하는 방식을 제어할 수 있습니다. Allow Disallow 또한 인덱싱되는 웹 페이지와 크롤링되지 않는 웹 페이지를 제어할 수 있습니다.

Amazon Kendra Web Crawler가 허용되지 않은 웹 페이지를 제외한 모든 웹 페이지를 크롤링하도록 허용하려면 다음 지침을 사용하십시오.

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

Amazon Kendra Web Crawler가 특정 웹 페이지만 크롤링하도록 허용하려면 다음 지침을 사용하십시오.

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

Amazon Kendra Web Crawler가 모든 웹 사이트 콘텐츠를 크롤링하도록 허용하고 다른 로봇의 크롤링은 허용하지 않으려면 다음 지침을 사용하십시오.

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

웹 크롤러가 웹 사이트를 크롤링하지 못하도록 중지 Amazon Kendra

지침을 사용하여 Amazon Kendra 웹 크롤러가 웹 사이트의 색인을 생성하지 못하게 할 수 있습니다. Disallow 또한 인덱싱되는 웹 페이지와 크롤링되지 않는 웹 페이지를 제어할 수 있습니다.

Amazon Kendra Web Crawler가 웹 사이트를 크롤링하지 못하게 하려면 다음 지침을 사용하십시오.

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Amazon Kendra 또한 웹 크롤러는 HTML 페이지의 메타 태그에 있는 noindex 로봇과 nofollow 지시문을 지원합니다. 이 지시문은 웹 크롤러가 웹 페이지를 인덱싱하지 못하게 하고 웹 페이지의 모든 링크를 따라가지 않도록 합니다. 문서 섹션에 메타 태그를 넣어 로봇 규칙의 규칙을 지정합니다.

예를 들어, 아래 웹 페이지에는 지시문 로봇 noindexnofollow가 포함됩니다.

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

Amazon Kendra 웹 크롤러와 관련하여 질문이나 우려 사항이 있는 경우 지원 팀에 문의할 수 있습니다.AWS