사전 파일 생성 - Amazon Kendra

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사전 파일 생성

Amazon Kendra 사전 파일은 Solr 동의어 목록 형식의 동의어 목록을 포함하는 UTF-8로 인코딩된 파일입니다. 사전 파일은 5MB 미만이어야 합니다.

동의어 매핑을 지정하는 방법에는 두 가지가 있습니다.

  • 양방향 동의어는 쉼표로 구분된 용어 목록으로 지정됩니다. 사용자가 용어를 쿼리하면 목록의 모든 용어가 원래 쿼리된 용어가 포함된 문서를 검색하는 데 사용됩니다.

  • 단방향 동의어는 용어를 해당 동의어에 매핑하기 위해 기호 “=>”로 구분된 용어로 지정됩니다. 사용자가 기호 “=>” 왼쪽에 있는 용어를 쿼리하면 오른쪽에 있는 용어에 매핑되어 동의어를 사용하여 문서를 검색합니다. 반대로 매핑되지 않으므로 단방향입니다.

동의어 자체는 대소문자를 구분하지만 매핑되는 용어는 대소문자를 구분하지 않습니다. 예를 들어, ML => Machine Learning은 사용자가 “ML” 또는 “ml”을 쿼리하거나 다른 대/소문자를 사용하는 경우 “Machine Learning”에 매핑된다는 의미입니다. 반대로 Machine Learning => ML과 같이 매핑하면 “Machine Learning” 또는 “machine learning” 또는 다른 대소문자는 “ML”에 매핑됩니다.

동의어는 특수 문자와 정확히 일치하는 항목을 검색하지 않습니다. 예를 들어 "“를 검색하면 dead-letter-queue “데드레터 큐" (하이픈 없음) 와 일치하는 문서를 Amazon Kendra 반환할 수 있습니다. 문서에 하이픈 (예: "dead-letter-queue“) 이 포함된 경우 검색 중에 문서를 Amazon Kendra 처리하여 하이픈을 제거합니다. 사전 파일에 포함되지만 포함해서는 안 되는 일반적인 영어 동의어 용어의 경우 용어의 하이픈 Amazon Kendra 버전과 하이픈이 아닌 버전을 모두 검색할 Amazon Kendra 수 있습니다. 예를 들어, “제3자”와 “제3자”를 검색하면 해당 용어의 두 버전 중 하나와 일치하는 문서가 Amazon Kendra 반환됩니다.

중지 단어 또는 일반적으로 사용되는 단어가 포함된 동의어의 경우 중지 단어를 포함하여 용어와 일치하는 문서를 Amazon Kendra 반환합니다. 예를 들어, “온보딩”과 “온보딩”을 매핑하는 동의어 규칙을 만들 수 있습니다. 동의어에는 스톱워드만 사용할 수 없습니다. 예를 들어, “on”을 검색하면 “on”이 포함된 모든 문서를 Amazon Kendra 반환할 수 없습니다.

일부 동의어 규칙은 무시됩니다. 예를 들어 a => b 는 규칙이지만 a => a 무시되며 규칙으로 간주되지 않습니다.

용어 수는 사전 파일에 있는 고유한 용어 수입니다. 아래 예제 파일에는 용어 AWS CodeStarML,Machine Learning, autoscaling groupASG, 등이 포함되어 있습니다.

사전에는 최대 동의어 규칙의 수와 용어당 최대 동의어 수가 있습니다. 자세한 정보는 에 대한 할당량 Amazon Kendra을 참조하세요.

다음 예제는 동의어 규칙이 있는 사전 파일을 보여줍니다. 각 줄에는 단일 동의어 규칙이 포함되어 있습니다. 빈 줄과 주석은 무시됩니다.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.