Amazon S3 文件元資料 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon S3 文件元資料

您可以使用中繼資料檔案,將中繼資料 (文件的其他相關資訊) 新增至 Amazon S3 值區中的文件。每個中繼資料檔案都與索引文件相關聯。

您的中繼資料檔案必須儲存在與索引檔案相同的儲存貯體中。您可以在建立資料來源時,使用主控台或DocumentsMetadataConfiguration參數S3Prefix欄位為中繼 Amazon S3 資料檔案指定值區中的位置。如果您沒有指定 Amazon S3 字首,您的中繼資料檔案必須儲存在與索引文件相同的位置。

如果您為中繼資料檔案指定 Amazon S3 前置詞,它們會在與索引文件 parallel 的目錄結構中。 Amazon Kendra 只會在指定的目錄中尋找您的中繼資料。如果未讀取中繼資料,請檢查目錄位置是否符合中繼資料的位置。

下列範例顯示索引文件位置如何對應至中繼資料檔案位置。請注意,文件的 Amazon S3 索引鍵會附加至中繼資料的 Amazon S3 前置字元,然後加上後綴.metadata.json以形成中繼資料檔案的 Amazon S3 路徑。具有中繼資料 Amazon S3 前.metadata.json綴和後綴的組合 Amazon S3 鍵不得超過 1024 個字符。建議您將 Amazon S3 金鑰保持在 1000 個字元以下,以便在結合金鑰與前置字元和尾碼時考慮其他字元。

Bucket name: s3://bucketName Document path: documents Metadata path: none File mapping s3://bucketName/documents/file.txt -> s3://bucketName/documents/file.txt.metadata.json
Bucket name: s3://bucketName Document path: documents/legal Metadata path: metadata File mapping s3://bucketName/documents/legal/file.txt -> s3://bucketName/metadata/documents/legal/file.txt.metadata.json

您的文件中繼資料是在 JSON 檔案中定義的。該文件必須是一個不帶 BOM 標識的 UTF-8 文本文件。JSON 檔案的檔案名稱必須是<document>.<extension>.metadata.json。在此範例中,「document」是中繼資料套用的文件名稱,而「副檔名」是文件的副檔名。中的文件 ID 必須是唯一的<document>.<extension>.metadata.json

JSON 檔案的內容遵循此範本。所有屬性/字段都是可選的,因此不需要包含所有屬性。您必須為要包含的每個屬性提供一個值;該值不能為空。如果未指定_source_uri,則搜尋結果 Amazon Kendra 中傳回的連結會指向包含文件的 Amazon S3 值區。 DocumentId會對應至欄位,s3_document_id並且是 S3 中文件的絕對路徑。

{ "DocumentId": "S3 document ID, the S3 path to doc", "Attributes": { "_category": "document category", "_created_at": "ISO 8601 encoded string", "_last_updated_at": "ISO 8601 encoded string", "_source_uri": "document URI", "_version": "file version", "_view_count": number of times document has been viewed, "custom attribute key": "custom attribute value", additional custom attributes }, "AccessControlList": [ { "Name": "user name", "Type": "GROUP | USER", "Access": "ALLOW | DENY" } ], "Title": "document title", "ContentType": "For example HTML | PDF. For supported content types, see Types of documents." }

_created_at和中_last_updated_at繼資料欄位是 ISO 8601 編碼的日期。例如,2012-03-25T12:30:10 + 01:00 是二零一二年三月二十五日的 ISO 8601 日期時間格式,在歐洲中部時區的下午 12 時 30 分(加上 10 秒)。

您可以將其他資訊新增至有關您用來篩選查詢或群組查詢回應之文件的Attributes欄位。如需詳細資訊,請參閱 建立自訂文件欄位

您可以使用AccessControlList欄位來篩選查詢的回應。如此一來,只有特定使用者和群組才能存取文件。如需詳細資訊,請參閱 篩選使用者內容