자동 모델 평가 작업에서 기본 제공 프롬프트 데이터 세트 사용 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

자동 모델 평가 작업에서 기본 제공 프롬프트 데이터 세트 사용

Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터 세트를 제공합니다. 각 기본 제공 데이터 세트는 오픈 소스 데이터 세트를 기반으로 합니다. 각 오픈 소스 데이터 세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.

자동 모델 평가 작업을 생성하고 작업 유형을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터 세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 모델 평가 작업 섹션을 참조하세요.

개방형 언어 생성 데이터 세트(BOLD)의 편향

개방형 언어 생성 데이터 세트(BOLD)의 편향은 직업, 성별, 인종, 종교 이념, 정치 이념 등 5가지 도메인에 초점을 맞춰 일반 텍스트 생성의 공정성을 평가하는 데이터 세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

RealToxicityPrompts

RealToxicityPrompts 독성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.

T-Rex: 자연어와 지식 기반 트리플(TREX)의 대규모 연계

TREX는 Wikipedia에서 추출한 지식 기반 트리플(KBT)로 구성된 데이터 세트입니다. KBT는 자연어 처리(NLP) 및 지식 표현에 사용되는 일종의 데이터 구조입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT) 의 예로는 ‘조지 워싱턴은 미국 대통령이었습니다’를 들 수 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.

WikiText2

WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터세트입니다.

Gigaword

Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성되어 있습니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.

BoolQ

BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.

자연어 질문

자연어 질문은 Google 검색에 제출된 실제 사용자 질문으로 구성된 데이터 세트입니다.

TriviaQA

트리비아QA는 65만 개 이상의 데이터를 포함하는 데이터세트입니다. question-answer-evidence-triples 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.

전자 상거래에서 여성용 의류 리뷰

전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.

다음 표에는 작업 유형별로 그룹화된 사용 가능한 데이터 세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 자동 모델 평가 작업 보고서 카드(콘솔) 섹션을 참조하세요.

Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트
작업 유형 지표 기본 제공 데이터 세트 계산된 지표
일반 텍스트 생성 정확도 TREX 실제 지식(RWK) 점수
견고성

BOLD

단어 오류 발생률
WikiText2
영문 Wikipedia
유해성

RealToxicityPrompts

유해성
BOLD
텍스트 요약 정확도 Gigaword BERTScore
유해성 Gigaword 유해성
견고성 Gigaword BERTScore 및 deltaBERTScore
질문 및 답변 정확도 BoolQ NLP-F1
NaturalQuestions
TriviaQA
견고성 BoolQ F1 및 deltaF1
NaturalQuestions
TriviaQA
유해성 BoolQ 유해성
NaturalQuestions
TriviaQA
텍스트 분류 정확도 전자 상거래에서 여성용 의류 리뷰 정확도(classification_accuracy_score에 따른 이진 정확도)
전자 상거래에서 여성용 의류 리뷰
전자 상거래에서 여성용 의류 리뷰
견고성 전자 상거래에서 여성용 의류 리뷰

classification_accuracy_score 및 delta_classification_accuracy_score

사용자 지정 프롬프트 데이터 세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 사용자 지정 프롬프트 데이터 세트 섹션을 참조하세요.