LLMs 사용하는 RAG 평가에 대한 지표 검토(콘솔) - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

LLMs 사용하는 RAG 평가에 대한 지표 검토(콘솔)

Amazon Bedrock 콘솔을 사용하여 RAG 평가 작업에 대한 보고서에 표시된 지표를 검토할 수 있습니다.

대규모 언어 모델(LLMs) 컴퓨팅 평가 지표를 사용하는 RAG 평가는 Amazon Bedrock 지식 기반 또는 외부 RAG 소스가 정보를 얼마나 잘 검색하고 응답을 생성하는지의 성능을 평가합니다.

RAG 평가 보고서 카드에는 검색 전용 또는 응답 생성 시 검색의 평가 유형과 관련된 지표와 지표의 분석 그래프가 표시됩니다. 다양한 지표는 다양한 평가 유형과 관련이 있습니다. 각 지표에 대해 계산된 점수는 프롬프트 데이터 세트의 모든 사용자 쿼리에서 검색된 텍스트 또는 생성된 응답의 평균 점수입니다. 각 지표에 대해 계산된 점수는 0에서 1 사이의 값입니다. 1에 가까울수록 검색된 텍스트 또는 응답에 지표의 특성이 더 많이 나타납니다. 각 지표의 분석 그래프는 히스토그램을 표시하고 쿼리에 대해 검색된 텍스트 또는 응답이 각 점수 범위에 속하는 수를 계산합니다.

예를 들어 응답 생성으로 검색을 평가하는 평가 작업을 생성했습니다. 콘솔 보고서 카드에는 응답의 완전성에 대한 계산된 점수가 0.82로 표시됩니다. 완전성 점수는 생성된 응답이 사용자 질문의 모든 측면을 해결하는 방법을 측정합니다. 데이터 세트의 모든 프롬프트에서 질문에 대한 응답의 평균 점수로 계산됩니다. 완전성에 대한 히스토그램 그래프는 대부분의 응답(가장 높은 막대)이 완전성 점수 범위 0.7~0.8에 속함을 보여줍니다. 그러나 지식 기반도 스테레오타이핑에서 높은 점수를 받았습니다. 여기서 일반화된 문은 응답에서 평균 0.94로 작성됩니다. 지식 기반은 대부분의 경우 상당히 완전한 응답을 생성할 수 있지만, 이러한 응답에는 개인 또는 집단에 대한 많은 양의 일반화된 설명이 포함됩니다.

LLMs을 사용하는 RAG 평가용 보고서 카드

단계에 따라 LLMs을 사용하는 RAG 평가 작업에 대해 Amazon Bedrock 콘솔에서 보고서 카드를 엽니다. 응답 생성 시 가져오기 전용 및 가져오기의 평가 유형과 관련된 각 지표에 대해서는 아래 정보를 참조하세요.

  • 에 로그인 AWS Management Console 하고 https://console.aws.amazon.com/bedrock/ Amazon Bedrock 콘솔을 엽니다.

  • 탐색 창에서 평가를 선택한 다음 지식 기반 평가를 선택합니다.

  • 지식 기반 평가 작업의 이름을 선택합니다. 지식 기반 평가의 기본 페이지인 보고서 카드로 이동합니다.

    참고

    보고서 카드를 열려면 RAG 평가 상태가 준비 또는 사용 가능 상태여야 합니다.

검색 전용 유형 평가와 관련된 지표

지식 기반의 관련성이 높은 정보 검색 기능 평가와 관련된 특정 지표가 있습니다.

컨텍스트 관련성

이 지표는 검색된 정보의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 검색된 텍스트 청크의 평균 점수입니다. 컨텍스트 관련성은 검색된 텍스트 청크가 질문과 컨텍스트적으로 관련이 있음을 의미합니다. 점수가 높을수록 상황에 따라 정보가 평균적으로 더 관련성이 높습니다. 점수가 낮을수록 상황에 따라 정보가 평균적으로 관련성이 떨어집니다.

컨텍스트 적용 범위(실측 정보 필요)

이 지표는 검색된 정보의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 검색된 텍스트 청크의 평균 점수입니다. 컨텍스트 적용 범위는 검색된 텍스트 청크가 실측 텍스트에 제공된 모든 정보를 포함한다는 의미입니다. 점수가 높을수록 평균 컨텍스트 적용 범위가 늘어납니다. 점수가 낮을수록 평균 컨텍스트 적용 범위가 줄어듭니다.

응답 생성 유형 평가를 사용한 검색과 관련된 지표

검색된 정보를 기반으로 유용하고 적절한 응답을 생성하는 지식 기반의 능력을 평가하는 것과 관련된 특정 지표가 있습니다.

정확성

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 정확성이란 질문에 정확하게 답하는 것을 의미합니다. 점수가 높을수록 생성된 응답이 평균적으로 더 정확합니다. 점수가 낮을수록 생성된 응답의 평균이 정확하지 않습니다.

완전성

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 완전성이란 질문의 모든 측면에 답변하고 해결하는 것을 의미합니다. 점수가 높을수록 생성된 응답의 평균 완성도가 높아집니다. 점수가 낮을수록 생성된 응답의 평균 완성도는 떨어집니다.

유용성

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 유용성은 질문에 대한 전체적으로 유용한 응답을 의미합니다. 점수가 높을수록 생성된 응답이 평균적으로 더 유용합니다. 점수가 낮을수록 생성된 응답의 평균 유용성이 떨어집니다.

논리적 일관성

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 논리적 일관성은 응답에 논리적 격차, 불일치 또는 모순이 없음을 의미합니다. 점수가 높을수록 생성된 응답의 평균 일관성이 높아집니다. 점수가 낮을수록 생성된 응답의 평균 일관성이 떨어집니다.

신의성실

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 충실도는 검색된 텍스트 청크에 대한 환각을 피하는 것을 의미합니다. 점수가 높을수록 생성된 응답의 평균 신뢰도가 높아집니다. 점수가 낮을수록 생성된 응답의 평균 신뢰도가 떨어집니다.

인용 정밀도

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 인용 정밀도는 올바르게 인용된 인용된 구절 수의 척도입니다. 점수가 높을수록 응답의 인용 수가 평균적으로 정확합니다. 점수가 낮을수록 평균적으로 올바른 인용 수가 줄어듭니다.

인용 정밀도를 사용하기로 선택한 경우 인용 범위도 사용해야 합니다. 인용 범위는 대략적인 인용 재현율입니다. 둘 다 함께 사용하면 인용 품질을 전체적으로 볼 수 있습니다.

인용 적용 범위

이 지표는 생성된 응답의 품질과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 인용 범위는 대략적인 인용 재현율이며 인용된 구절이 응답을 얼마나 잘 지원하는지 측정한 것입니다. 점수가 높을수록 평균적으로 인용을 통해 응답이 더 잘 지원됩니다. 점수가 낮을수록 평균적으로 인용에서 응답이 더 적게 지원됩니다.

인용 범위를 사용하기로 선택한 경우 인용 정밀도도 사용해야 합니다. 둘 다 함께 사용하면 인용 품질을 전체적으로 볼 수 있습니다.

유해성

이 지표는 생성된 응답의 적절성과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 유해성은 증오, 모욕 또는 폭력적인 표현을 하는 것을 의미합니다. 점수가 높을수록 생성된 응답이 평균적으로 더 유해합니다. 점수가 낮을수록 생성된 응답의 평균 유해성이 줄어듭니다.

고정 관념화

이 지표는 생성된 응답의 적절성과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 고정 관념화는 개인 또는 집단에 대한 일반화된 설명을 만드는 것을 의미합니다. 점수가 높을수록 생성된 응답이 평균적으로 고정 관념화됩니다. 점수가 낮을수록 생성된 응답의 평균 고정 관념이 줄어듭니다. 매력적인 고정 관념과 경멸적인 고정 관념이 모두 강력하게 존재하면 점수가 높아집니다.

거부

이 지표는 생성된 응답의 적절성과 관련이 있습니다. 점수는 데이터 세트의 모든 프롬프트에서 응답의 평균 점수입니다. 거부는 질문에 대한 답변을 회피하는 것을 의미합니다. 점수가 높을수록 생성된 응답은 평균적으로 더 회피적입니다. 점수가 낮을수록 생성된 응답은 평균적으로 덜 회피적입니다.