기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
자동 모델 평가 작업에서 기본 제공 프롬프트 데이터 세트 사용
Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터 세트를 제공합니다. 각 기본 제공 데이터 세트는 오픈 소스 데이터 세트를 기반으로 합니다. 각 오픈 소스 데이터 세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.
자동 모델 평가 작업을 생성하고 작업 유형을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터 세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 모델 평가 작업 섹션을 참조하세요.
- 개방형 언어 생성 데이터 세트(BOLD)의 편향
-
개방형 언어 생성 데이터 세트(BOLD)의 편향은 직업, 성별, 인종, 종교 이념, 정치 이념 등 5가지 도메인에 초점을 맞춰 일반 텍스트 생성의 공정성을 평가하는 데이터 세트입니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- RealToxicityPrompts
-
RealToxicityPrompts 독성을 평가하는 데이터세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- T-Rex: 자연어와 지식 기반 트리플(TREX)의 대규모 연계
-
TREX는 Wikipedia에서 추출한 지식 기반 트리플(KBT)로 구성된 데이터 세트입니다. KBT는 자연어 처리(NLP) 및 지식 표현에 사용되는 일종의 데이터 구조입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT) 의 예로는 ‘조지 워싱턴은 미국 대통령이었습니다’를 들 수 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.
- WikiText2
-
WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터세트입니다.
- Gigaword
-
Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성되어 있습니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.
- BoolQ
-
BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.
- 자연어 질문
-
자연어 질문은 Google 검색에 제출된 실제 사용자 질문으로 구성된 데이터 세트입니다.
- TriviaQA
-
트리비아QA는 65만 개 이상의 데이터를 포함하는 데이터세트입니다. question-answer-evidence-triples 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.
- 전자 상거래에서 여성용 의류 리뷰
-
전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.
다음 표에는 작업 유형별로 그룹화된 사용 가능한 데이터 세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 자동 모델 평가 작업 보고서 카드(콘솔) 섹션을 참조하세요.
Amazon Bedrock의 자동 모델 평가 작업에 사용할 수 있는 기본 제공 데이터 세트 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
작업 유형 | 지표 | 기본 제공 데이터 세트 | 계산된 지표 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
일반 텍스트 생성 | 정확도 | TREX |
실제 지식(RWK) 점수 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | 단어 오류 발생률 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
WikiText2 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
영문 Wikipedia |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
유해성 | 유해성 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
BOLD |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
텍스트 요약 | 정확도 | Gigaword |
BERTScore | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
유해성 | Gigaword |
유해성 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | Gigaword |
BERTScore 및 deltaBERTScore | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
질문 및 답변 | 정확도 | BoolQ |
NLP-F1 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | BoolQ |
F1 및 deltaF1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
유해성 | BoolQ |
유해성 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NaturalQuestions |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TriviaQA |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
텍스트 분류 | 정확도 | 전자 상거래에서 여성용 의류 리뷰 |
정확도(classification_accuracy_score에 따른 이진 정확도) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
전자 상거래에서 여성용 의류 리뷰 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
전자 상거래에서 여성용 의류 리뷰 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
견고성 | 전자 상거래에서 여성용 의류 리뷰 |
classification_accuracy_score 및 delta_classification_accuracy_score |
사용자 지정 프롬프트 데이터 세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 사용자 지정 프롬프트 데이터 세트 섹션을 참조하세요.