本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定 Amazon Kendra 網頁爬行者程式的robots.txt
檔案
Amazon Kendra 是一種智慧型搜尋服務, AWS 客戶可用來索引和搜尋自己選擇的文件。為了索引 Web 上的文件,客戶可以使用 Web 爬行者程式 ( Amazon Kendra Web Crawler) 來指出應該對哪些 URL 進行索引以及其他操作參數。 Amazon Kendra 在索引任何特定網站之前,客戶必須獲得授權。
Amazon Kendra 網絡爬蟲尊重標準的 robots.txt 指令Allow
,如和Disallow
。您可以修改網站的robots.txt
檔案,以控制網 Amazon Kendra 路爬蟲如何抓取您的網站。
設定 Amazon Kendra 網路爬蟲存取您網站的方式
您可以控制 Amazon Kendra Web 爬蟲如何使用Allow
和Disallow
指令索引您的網站。您也可以控制哪些網頁要編製索引,以及哪些網頁未被檢索。
若要允許 Amazon Kendra Web 爬蟲檢索所有網頁 (不允許的網頁除外),請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: /credential-pages/ # disallow access to specific pages
若要允許 Amazon Kendra Web 爬蟲只檢索特定網頁,請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: /pages/ # allow access to specific pages
若要允許 Amazon Kendra Web 爬蟲抓取所有網站內容並禁止其他機器人進行檢索,請使用以下指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
停止 Amazon Kendra 網絡爬蟲爬網您的網站
您可以使用該Disallow
指令阻止 Amazon Kendra Web 爬蟲索引您的網站。您還可以控制哪些網頁被抓取,哪些網頁不被抓取。
若要停止 Amazon Kendra 網頁爬蟲檢索網站,請使用下列指令:
User-agent: amazon-kendra # Amazon Kendra Web Crawler Disallow: / # disallow access to any pages
Amazon Kendra 網絡爬蟲還支持 HTML 頁面中的元標記中的機器人noindex
和nofollow
指令。這些指令可阻止 Web 爬蟲索引網頁,並停止跟隨網頁上的任何鏈接。您可以將 meta 標籤放在文件的區段中,以指定自動機制規則的規則。
例如,下面的網頁包括指令自動機制noindex
和nofollow
:
<html> <head> <meta name="robots" content="noindex, nofollow"/> ... </head> <body>...</body> </html>
如果您對 Amazon Kendra 網絡爬蟲有任何疑問或疑慮,可以聯繫AWS 支持團隊