인덱스 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

인덱스

인덱스는 문서의 내용을 담고 있으며 문서를 검색할 수 있는 방식으로 구조화되어 있습니다. 인덱스에 문서를 추가하는 방법은 문서를 저장하는 방식에 따라 달라집니다.

  • 문서를 다음과 같은 일종의 리포지토리에 저장하는 경우 Amazon S3 버킷 또는 Microsoft SharePoint 사이트에서는 데이터 소스 커넥터를 사용하여 저장소에서 문서를 인덱싱합니다.

  • 문서를 저장소에 저장하지 않는 경우 를 사용하여 문서를 직접 인덱싱합니다. BatchPutDocumentAPI

  • FAQ질문과 답변의 경우 반드시 저장해야 합니다. Amazon Kendra (Amazon S3) 버킷에서는 버킷에서 업로드합니다.

다음을 사용하여 색인을 생성할 수 있습니다. Amazon Kendra 콘솔, AWS CLI, 또는 AWS SDK. 인덱싱할 수 있는 문서 유형에 대한 자세한 내용은 문서 유형을 참조하세요.

사용 Amazon Kendra 예약 또는 공통 문서 필드

UpdateIndex API사용하면 다음을 사용하여 DocumentMetadataConfigurationUpdates 지정하여 예약된 필드 또는 공통 필드를 만들 수 있습니다. Amazon Kendra 예약된 인덱스 필드 이름을 해당 문서 속성/필드 이름에 매핑할 수 있습니다. 사용자 지정 필드도 생성할 수 있습니다. 데이터 소스 커넥터를 사용하는 경우 대부분 데이터 소스 문서 필드를 다음과 같이 매핑하는 필드 매핑을 포함합니다. Amazon Kendra 인덱스 필드. 콘솔을 사용하는 경우 데이터 소스를 선택하고 편집 작업을 선택한 다음 데이터 소스 구성을 위한 필드 매핑 섹션 옆으로 이동하여 필드를 업데이트합니다.

필드를 displayable, facetable, searchable, sortable로 설정하도록 Search 객체를 구성할 수 있습니다. 필드의 순위 순서, 부스트 기간 또는 부스팅에 적용할 기간, 최신성, 중요도 값 및 특정 필드 값에 매핑된 중요도 값을 설정하도록 Relevance 객체를 구성할 수 있습니다. 콘솔을 사용하는 경우 탐색 메뉴에서 패싯 옵션을 선택하여 필드에 대한 검색 설정을 지정할 수 있습니다. 관련성 조정을 설정하려면 탐색 메뉴에서 인덱스를 검색하는 옵션을 선택하고 쿼리를 입력한 다음 사이드 패널 옵션을 사용하여 검색 관련성을 조정합니다. 필드를 생성한 후에는 필드 유형을 변경할 수 없습니다.

Amazon Kendra 사용할 수 있는 다음과 같은 예약된 문서 필드 또는 일반 문서 필드가 있습니다.

  • _authors - 문서 내용을 책임지는 한 명 이상의 작성자 목록.

  • _category - 문서를 특정 그룹에 배치하는 범주.

  • _created_at—문서를 만든 ISO 8601 형식의 날짜 및 시간. 예를 들어, 2012-03-25T12:30:10 + 01:00 은 중앙 유럽 표준시로 2012년 3월 25일 오후 12시 30분 (10초 추가) 의 ISO 8601 날짜-시간 형식입니다.

  • _data_source_id - 문서가 포함된 데이터 소스의 식별자.

  • _document_body - 작업 문서의 내용.

  • _document_id - 문서의 고유 식별자.

  • _document_title - 문서의 제목.

  • _excerpt_page_number—문서 발췌문이 표시되는 파일의 페이지 번호. PDF 2020년 9월 8일 이전에 인덱스를 만든 경우 이 속성을 사용하려면 먼저 문서를 다시 인덱싱해야 합니다.

  • _faq_id—질문-답변형 문서 (FAQ) 인 경우 의 고유 식별자입니다. FAQ

  • _file_type - 문서의 파일 형식(예: pdf 또는 doc).

  • _last_updated_at—문서가 마지막으로 업데이트된 ISO 8601 형식의 날짜 및 시간. 예를 들어, 2012-03-25T12:30:10 + 01:00 은 중앙 유럽 표준시로 2012년 3월 25일 오후 12시 30분 (10초 추가) 의 ISO 8601 날짜-시간 형식입니다.

  • _source_uriURI—문서를 사용할 수 있는 곳. 회사 웹 사이트에 있는 URI 문서의 경우를 예로 들 수 있습니다.

  • _version - 문서의 특정 버전을 나타내는 식별자.

  • _view_count - 문서가 조회된 횟수.

  • _language_code(문자열) - 문서에 적용되는 언어의 코드. 언어를 지정하지 않으면 영어가 기본값으로 사용됩니다. 코드를 포함하여 지원되는 언어에 대한 자세한 내용은 영어 이외의 언어로 문서 추가를 참조하세요.

사용자 정의 필드의 경우 예약된 필드 또는 공통 필드를 만들 때와 마찬가지로 를 사용하여 DocumentMetadataConfigurationUpdates 이러한 필드를 만듭니다. UpdateIndex API 사용자 지정 필드에 적절한 데이터 유형을 설정해야 합니다. 콘솔을 사용하는 경우 데이터 소스를 선택하고 편집 작업을 선택한 다음 데이터 소스 구성을 위한 필드 매핑 섹션 옆으로 이동하여 필드를 업데이트합니다. 일부 데이터 소스는 새 필드 또는 사용자 지정 필드 추가를 지원하지 않습니다. 필드를 생성한 후에는 필드 유형을 변경할 수 없습니다.

사용자 지정 필드에 설정할 수 있는 유형은 다음과 같습니다.

  • 날짜

  • 숫자

  • String

  • 문자열 목록

를 사용하여 BatchPutDocumentAPI색인에 문서를 추가한 경우 문서의 필드/속성을 Attributes 나열하고 객체를 사용하여 필드를 생성합니다. DocumentAttribute

에서 색인된 문서의 경우 Amazon S3 데이터 소스에서 필드 정보가 포함된 JSON메타데이터 파일을 사용하여 필드를 만듭니다.

지원되는 데이터베이스를 데이터 소스로 사용하는 경우 필드 매핑 옵션을 사용하여 필드를 구성할 수 있습니다.

인덱스 검색

인덱스를 생성한 후 문서 검색을 시작할 수 있습니다. 자세한 내용은 인덱스 선택을 참조하세요.