ドキュメントタイプまたは書式 - Amazon Kendra

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ドキュメントタイプまたは書式

Amazon Kendra PDF、HTML、 PowerPoint Word などの一般的なドキュメントタイプまたは形式をサポートします。インデックスには複数のドキュメント形式を含めることができます。

Amazon Kendra ドキュメント内のコンテンツを抽出して、ドキュメントを検索可能にします。抽出されたテキストとドキュメント内の表形式のコンテンツ (HTML テーブル) での検索が最適化されるように、ドキュメントが解析されます。つまり、ドキュメントを、検索で使用するフィールドまたは属性に構築します。最終更新日などのドキュメントメタメタデータは、検索に役立つフィールドになります。

ドキュメントは行と列に編成できます。例えば、各ドキュメントは行で、タイトルや本文コンテンツなどの各ドキュメントフィールド/属性は列にします。例えば、データベースをデータソースとして使用する場合、データは行と列に構築または整理する必要があります。

ドキュメントをインデックスに追加するには、次の方法があります。

FAQ ファイルを追加する場合は、CreateFaqAPI を使用してバケットに保存されているファイルを追加します。 Amazon S3 基本的な CSV 形式、ヘッダーにカスタムフィールド/属性を含む CSV 形式、カスタムフィールドを含む JSON 形式から選択できます。デフォルトの形式は基本的な CSV です。

以下では、サポートされている各ドキュメント形式と、 Amazon Kendra がドキュメントのインデックス作成時に各形式をどのように処理するかについて説明します。

ドキュメントの形式 処理方法 ドキュメントの処理方法 元の構造
ポータブルドキュメント形式 (PDF) HTML HTML に変換してから、コンテンツを抽出します。 構造化されない
HyperText マークアップ言語 (HTML) HTML HTML タグをフィルターで除外して、コンテンツを抽出します。コンテンツはメインの HTML 開始タグと終了タグ (<HTML>content</HTML>) の間にある必要があります。 半構造化
Extensible Markup Language (XML) XML XML タグをフィルターで除外して、コンテンツを抽出します。 半構造化
拡張スタイルシート言語変換 (XSLT) XSLT タグをフィルターで除外して、コンテンツを抽出します。 半構造化
MarkDown (MD) プレーンテキスト MarkDown コンテンツは構文を含めて抽出されます。 半構造化
カンマ区切り値 (CSV) CSV 各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。 よくある質問ファイルの場合は構造化、それ以外は半構造化
Microsoft Excel (XLS および XLSX) XLS および XLSX 各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。 半構造化
JavaScript オブジェクト表記 (JSON) プレーンテキスト コンテンツは JSON 構文を含めた状態で抽出されます。 半構造化
リッチテキスト形式 (RTF) RTF RTF 構文はフィルターで除外され、内容が抽出されます。 半構造化
Microsoft PowerPoint (PPT) PPT PowerPoint 検索用にスライドから抽出されるのはテキストコンテンツだけです。イメージやその他のコンテンツは抽出されません。 構造化されない
Microsoft Word (DOCX) DOCX 検索のために Word ページからテキストコンテンツのみが抽出されます。イメージやその他のコンテンツは抽出されません。 構造化されない
プレーンテキスト (TXT) TXT テキストドキュメント内のすべてのテキストが抽出されます。 構造化されない