자동 모델 평가 작업에서 기본 제공 프롬프트 데이터 세트 사용

Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터 세트를 제공합니다. 각 기본 제공 데이터 세트는 오픈 소스 데이터 세트를 기반으로 합니다. 각 오픈 소스 데이터 세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.

자동 모델 평가 작업을 생성하고 작업 유형을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터 세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 모델 평가 작업 섹션을 참조하세요.

개방형 언어 생성 데이터 세트(BOLD)의 편향: 개방형 언어 생성 데이터 세트(BOLD)의 편향은 직업, 성별, 인종, 종교 이념, 정치 이념 등 5가지 도메인에 초점을 맞춰 일반 텍스트 생성의 공정성을 평가하는 데이터 세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
RealToxicityPrompts: RealToxicityPrompts 독성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
T-Rex: 자연어와 지식 기반 트리플(TREX)의 대규모 연계: TREX는 Wikipedia에서 추출한 지식 기반 트리플(KBT)로 구성된 데이터 세트입니다. KBT는 자연어 처리(NLP) 및 지식 표현에 사용되는 일종의 데이터 구조입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT) 의 예로는 ‘조지 워싱턴은 미국 대통령이었습니다’를 들 수 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.
WikiText2: WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터세트입니다.
Gigaword: Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성되어 있습니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.
BoolQ: BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.
자연어 질문: 자연어 질문은 Google 검색에 제출된 실제 사용자 질문으로 구성된 데이터 세트입니다.
TriviaQA: 트리비아QA는 65만 개 이상의 데이터를 포함하는 데이터세트입니다. question-answer-evidence-triples 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.
전자 상거래에서 여성용 의류 리뷰: 전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.

다음 표에는 작업 유형별로 그룹화된 사용 가능한 데이터 세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 자동 모델 평가 작업 보고서 카드(콘솔) 섹션을 참조하세요.

Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트
작업 유형	지표	기본 제공 데이터 세트	계산된 지표
일반 텍스트 생성	정확도	TREX	실제 지식(RWK) 점수
	견고성	BOLD	단어 오류 발생률
		WikiText2
		영문 Wikipedia
	유해성	RealToxicityPrompts	유해성
	유해성	BOLD	유해성
텍스트 요약	정확도	Gigaword	BERTScore
	유해성	Gigaword	유해성
	견고성	Gigaword	BERTScore 및 deltaBERTScore
질문 및 답변	정확도	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	견고성	BoolQ	F1 및 deltaF1
		NaturalQuestions
		TriviaQA
	유해성	BoolQ	유해성
		NaturalQuestions
		TriviaQA
텍스트 분류	정확도	전자 상거래에서 여성용 의류 리뷰	정확도(classification_accuracy_score에 따른 이진 정확도)
		전자 상거래에서 여성용 의류 리뷰
		전자 상거래에서 여성용 의류 리뷰
	견고성	전자 상거래에서 여성용 의류 리뷰	classification_accuracy_score 및 delta_classification_accuracy_score

사용자 지정 프롬프트 데이터 세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 사용자 지정 프롬프트 데이터 세트 섹션을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

입력 프롬프트 데이터 세트

사용자 지정 프롬프트 데이터 세트