기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
문서 유형 또는 형식
Amazon Kendra PDF,HTML, PowerPoint Word 등과 같이 널리 사용되는 문서 유형 또는 형식을 지원합니다. 인덱스는 여러 문서 형식을 포함할 수 있습니다.
Amazon Kendra 문서를 검색할 수 있도록 문서 내의 내용을 추출합니다. 추출된 텍스트와 문서 내의 표 형식 내용 (HTML표) 에 대한 검색을 최적화하는 방식으로 문서를 파싱합니다. 즉, 검색에 사용되는 필드 또는 속성으로 문서를 구조화합니다. 마지막 수정 날짜와 같은 문서 메타데이터는 검색에 유용한 필드가 될 수 있습니다.
문서를 행과 열로 구성할 수 있습니다. 예를 들어, 각 문서는 행이고 각 문서 필드/속성(예: 제목 및 본문 내용)은 열입니다. 예를 들어 데이터베이스를 데이터 소스로 사용하는 경우 데이터는 행과 열로 구조화되거나 구성되어야 합니다.
다음과 같은 방법으로 인덱스에 문서를 추가할 수 있습니다.
파일을 CreateFaqAPI추가하려면 를 사용하여 FAQ 파일에 저장된 파일을 추가합니다. Amazon S3 버킷. 기본 CSV 형식, 헤더에 사용자 지정 필드/속성을 포함하는 CSV 형식, 사용자 지정 필드를 포함하는 JSON 형식 중에서 선택할 수 있습니다. 기본 형식은 기본입니다. CSV
다음은 지원되는 각 문서 형식과 방법에 대한 정보를 제공합니다. Amazon Kendra 문서를 인덱싱할 때 각 형식을 처리합니다.
문서 형식 | 취급 방식 | 문서 처리 방법 | 원래 구조 |
---|---|---|---|
휴대용 문서 형식 () PDF | HTML | 로 HTML 변환한 다음 내용이 추출됩니다. | 비정형 |
HyperText 마크업 언어 () HTML | HTML | HTML태그는 콘텐츠를 추출하기 위해 필터링됩니다. 콘텐츠는 기본 HTML 시작 태그와 종료 태그(<HTML>content</HTML> ) 사이에 있어야 합니다. |
반구조화 |
확장 가능한 마크업 언어 () XML | XML | XML태그는 필터링되어 콘텐츠를 추출합니다. | 반구조화 |
확장 가능한 스타일시트 언어 변환 () XSLT | XSLT | 태그는 콘텐츠를 추출하기 위해 필터링됩니다. | 반구조화 |
MarkDown (MD) | 일반 텍스트 | 내용은 MarkDown 구문이 포함된 상태로 추출됩니다. | 반구조화 |
쉼표로 구분된 값 () CSV | CSV | 각 셀에서 추출된 콘텐츠로, 단일 파일은 단일 문서 결과로 처리됩니다. | FAQ파일용으로 구조화되고, 그렇지 않으면 반구조화 |
마이크로소프트 엑셀 (XLS및XLSX) | XLS그리고 XLSX | 각 셀에서 추출된 콘텐츠로, 단일 파일은 단일 문서 결과로 처리됩니다. | 반구조화 |
JavaScript 객체 표기법 () JSON | 일반 텍스트 | 내용은 JSON 구문이 포함된 상태로 추출됩니다. | 반구조화 |
리치 텍스트 포맷 (RTF) | RTF | RTF콘텐츠를 추출하기 위해 구문이 필터링됩니다. | 반구조화 |
마이크로소프트 PowerPoint (PPT) | PPT, PPTX | PowerPoint 슬라이드에서는 텍스트 내용만 추출하여 검색합니다. 이미지 및 기타 콘텐츠는 추출되지 않습니다. | 비정형 |
Microsoft Word | DOC, DOCX | Word 페이지에서는 검색 대상 텍스트 내용만 추출됩니다. 이미지 및 기타 콘텐츠는 추출되지 않습니다. | 비정형 |
일반 텍스트 (TXT) | TXT | 텍스트 문서의 모든 텍스트가 추출됩니다. | 비정형 |