本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為 Amazon Kendra Web 爬蟲程式設定 robots.txt
檔案
Amazon Kendra 是一種智慧型搜尋服務, AWS 客戶可用來為其所選文件編製索引和進行搜尋。為了在 Web 上為文件編製索引,客戶可以使用 Amazon Kendra Web 爬蟲程式 (指出哪些 URL 應編製索引) 和其他操作參數。 Amazon Kendra 客戶在編製任何特定網站的索引之前,必須先取得授權。
Amazon Kendra Web Crawler 遵守標準 robots.txt 指令,例如 Allow
和 Disallow
。您可以修改網站robots.txt
的檔案,以控制 Amazon Kendra Web 爬蟲程式如何爬取您的網站。
設定 Amazon Kendra Web 爬蟲程式存取您網站的方式
您可以使用 Allow
和 Disallow
指令,控制 Amazon Kendra Web 爬蟲程式如何為您的網站編製索引。您也可以控制哪些網頁已編製索引,以及哪些網頁未編目。
若要允許 Amazon Kendra Web 爬蟲程式爬取除不允許的網頁以外的所有網頁,請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
若要允許 Amazon Kendra Web 爬蟲程式僅爬取特定網頁,請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
若要允許 Amazon Kendra Web 爬蟲程式爬取所有網站內容,並禁止任何其他機器人的爬取,請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
停止 Amazon Kendra Web 爬蟲程式爬取您的網站
您可以使用 Disallow
指令停止 Amazon Kendra Web Crawler 索引您的網站。您也可以控制哪些 Web 頁面被編目,哪些則否。
若要停止 Amazon Kendra Web 爬蟲程式爬取網站,請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages
如果您對 Amazon Kendra Web Crawler 有任何疑問或疑慮,請聯絡AWS 支援團隊