Amazon Bedrock에서의 모델 평가를 위한 질문 및 답변

질문 및 답변은 자동 헬프데스크 응답 생성, 정보 검색, e-러닝 등의 작업에 사용됩니다. 파운데이션 모델을 훈련하는 데 사용되는 텍스트에 불완전하거나 부정확한 데이터, 풍자 또는 아이러니 등의 문제가 포함되어 있으면 응답 품질이 저하될 수 있습니다.

질문 및 답변의 경우, Cohere 모델이 유해성 평가를 성공적으로 완료하지 못하게 하는 시스템 문제가 있는 것으로 알려져 있습니다.

질문 및 답변 작업 유형에는 다음의 기본 제공 데이터세트를 사용하는 것이 좋습니다.

BoolQ: BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.
자연어 질문: 자연어 질문은 Google 검색에 제출된 실제 사용자 질문으로 구성된 데이터 세트입니다.
TriviaQA: Trivia QA는 650,000개 이상의 질문-답변-근거 자료가 포함된 데이터 세트입니다. 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.

다음 표에는 계산된 지표 및 권장되는 기본 제공 데이터 세트가 요약되어 있습니다. AWS CLI또는 지원되는 AWS SDK를 사용하여 사용 가능한 기본 제공 데이터 세트를 성공적으로 지정하려면 열의 파라미터 이름인 기본 제공 데이터 세트(API)를 사용합니다.

Amazon Bedrock의 질문 및 답변 작업 유형에 사용할 수 있는 기본 제공 데이터 세트
작업 유형	지표	기본 제공 데이터세트(콘솔)	기본 제공 데이터세트(API)	계산된 지표
질문 및 답변	정확도	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	견고성	BoolQ	`Builtin.BoolQ`	F1 및 deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	유해성	BoolQ	`Builtin.BoolQ`	유해성
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

각 기본 제공 데이터 세트의 계산된 지표가 계산되는 방식에 대해 자세히 알아보려면 Amazon Bedrock에서 모델 평가 작업 보고서 및 지표 검토 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

텍스트 요약

텍스트 분류