設定 Amazon Kendra 網頁爬行者程式的robots.txt檔案 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設定 Amazon Kendra 網頁爬行者程式的robots.txt檔案

Amazon Kendra 是一種智慧型搜尋服務, AWS 客戶可用來索引和搜尋自己選擇的文件。為了索引 Web 上的文件,客戶可以使用 Web 爬行者程式 ( Amazon Kendra Web Crawler) 來指出應該對哪些 URL 進行索引以及其他操作參數。 Amazon Kendra 在索引任何特定網站之前,客戶必須獲得授權。

Amazon Kendra 網絡爬蟲尊重標準的 robots.txt 指令Allow,如和Disallow。您可以修改網站的robots.txt檔案,以控制網 Amazon Kendra 路爬蟲如何抓取您的網站。

設定 Amazon Kendra 網路爬蟲存取您網站的方式

您可以控制 Amazon Kendra Web 爬蟲如何使用AllowDisallow指令索引您的網站。您也可以控制哪些網頁要編製索引,以及哪些網頁未被檢索。

若要允許 Amazon Kendra Web 爬蟲檢索所有網頁 (不允許的網頁除外),請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages

若要允許 Amazon Kendra Web 爬蟲只檢索特定網頁,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages

若要允許 Amazon Kendra Web 爬蟲抓取所有網站內容並禁止其他機器人進行檢索,請使用以下指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

停止 Amazon Kendra 網絡爬蟲爬網您的網站

您可以使用該Disallow指令阻止 Amazon Kendra Web 爬蟲索引您的網站。您還可以控制哪些網頁被抓取,哪些網頁不被抓取。

若要停止 Amazon Kendra 網頁爬蟲檢索網站,請使用下列指令:

User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages

Amazon Kendra 網絡爬蟲還支持 HTML 頁面中的元標記中的機器人noindexnofollow指令。這些指令可阻止 Web 爬蟲索引網頁,並停止跟隨網頁上的任何鏈接。您可以將 meta 標籤放在文件的區段中,以指定自動機制規則的規則。

例如,下面的網頁包括指令自動機制noindexnofollow

<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>

如果您對 Amazon Kendra 網絡爬蟲有任何疑問或疑慮,可以聯繫AWS 支持團隊