為 Amazon Kendra Web 爬蟲程式設定 robots.txt 檔案 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

為 Amazon Kendra Web 爬蟲程式設定 robots.txt 檔案

Amazon Kendra 是一種智慧型搜尋服務, AWS 客戶可用來為其所選文件編製索引和進行搜尋。為了在 Web 上為文件編製索引,客戶可以使用 Amazon Kendra Web 爬蟲程式 (指出哪些 URL 應編製索引) 和其他操作參數。 Amazon Kendra 客戶在編製任何特定網站的索引之前,必須先取得授權。

Amazon Kendra Web Crawler 遵守標準 robots.txt 指令,例如 AllowDisallow。您可以修改網站robots.txt的檔案,以控制 Amazon Kendra Web 爬蟲程式如何爬取您的網站。

設定 Amazon Kendra Web 爬蟲程式存取您網站的方式

您可以使用 AllowDisallow指令,控制 Amazon Kendra Web 爬蟲程式如何為您的網站編製索引。您也可以控制哪些網頁已編製索引,以及哪些網頁未編目。

若要允許 Amazon Kendra Web 爬蟲程式爬取除不允許的網頁以外的所有網頁,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

若要允許 Amazon Kendra Web 爬蟲程式僅爬取特定網頁,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

若要允許 Amazon Kendra Web 爬蟲程式爬取所有網站內容,並禁止任何其他機器人的爬取,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

停止 Amazon Kendra Web 爬蟲程式爬取您的網站

您可以使用 Disallow指令停止 Amazon Kendra Web Crawler 索引您的網站。您也可以控制哪些 Web 頁面被編目,哪些則否。

若要停止 Amazon Kendra Web 爬蟲程式爬取網站,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

如果您對 Amazon Kendra Web Crawler 有任何疑問或疑慮,請聯絡AWS 支援團隊