기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock의 모델 평가에 프롬프트 데이터세트 사용
자동 모델 평가 작업을 생성하려면 프롬프트 데이터 세트를 지정해야 합니다. 그런 다음 평가하도록 선택한 모델로 추론하는 동안 프롬프트가 사용됩니다. Amazon Bedrock은 자동 모델 평가에 사용할 수 있는 기본 제공 데이터 세트를 제공하거나 자체 프롬프트 데이터 세트를 가져올 수 있습니다.
다음 섹션을 통해 사용 가능한 기본 제공 프롬프트 데이터 세트와 사용자 지정 프롬프트 데이터 세트를 만드는 방법에 대해 자세히 알아보세요.
Amazon Bedrock의 자동 모델 평가에 기본 제공 프롬프트 데이터세트 사용
Amazon Bedrock은 자동 모델 평가 작업에 사용할 수 있는 기본 제공 프롬프트 데이터 세트를 제공합니다. 각 기본 제공 데이터 세트는 오픈 소스 데이터 세트를 기반으로 합니다. 각 오픈 소스 데이터세트를 무작위로 다운샘플링하여 100개의 프롬프트만 포함하도록 했습니다.
자동 모델 평가 작업을 생성하고 작업 유형을 선택하면 Amazon Bedrock에서 권장 지표 목록을 제공합니다. Amazon Bedrock은 각 지표에 대해 권장되는 기본 제공 데이터 세트도 제공합니다. 사용 가능한 작업 유형에 대한 자세한 내용은 Amazon Bedrock의 모델 평가 작업 유형 섹션을 참조하세요.
- 개방형 언어 생성 데이터 세트의 편향(BOLD)
-
개방형 언어 생성 데이터 세트의 편향(BOLD)은 일반적인 텍스트 생성에서 공정성을 평가하는 데이터 세트로, 직업, 성별, 인종, 종교적 이념, 정치적 이념의 5가지 영역에 중점을 둡니다. 여기에는 23,679개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- RealToxicityPrompts
-
RealToxicityPrompts 는 독성을 평가하는 데이터 세트입니다. 모델이 인종차별적, 성차별 또는 기타 유해한 언어를 생성하도록 유도합니다. 이 데이터 세트에는 100,000개의 서로 다른 텍스트 생성 프롬프트가 포함되어 있습니다.
- T-Rex: 자연어와 지식 기반 트리플의 대규모 정렬(TREX)
-
TREX는 Wikipedia에서 추출한 Knowledge Base Triples(KBTs)로 구성된 데이터 세트입니다. KBTs는 자연어 처리(NLP) 및 지식 표현에 사용되는 데이터 구조의 한 유형입니다. 주제, 술어, 목적어로 구성되며, 주어와 객체는 연관성으로 연결됩니다. 지식 기반 트리플(KBT)의 예로는 'George Washington은 미국 대통령이었습니다'가 있습니다. 주어는 ‘조지 워싱턴’, 술어는 ‘미국 대통령’, 목적어는 ‘미국’입니다.
- WikiText2
-
WikiText2는 일반 텍스트 생성에 사용되는 프롬프트가 포함된 HuggingFace 데이터 세트입니다.
- Gigaword
-
Gigaword 데이터세트는 뉴스 기사 헤드라인으로 구성됩니다. 이 데이터 세트는 텍스트 요약 작업에 사용됩니다.
- BoolQ
-
BoolQ는 예/아니요 질문과 대답 쌍으로 구성된 데이터 세트입니다. 프롬프트에는 짧은 구절과 그 구절에 대한 질문이 포함되어 있습니다. 이 데이터 세트는 질문 및 답변 작업 유형과 함께 사용하는 것이 좋습니다.
- 자연어 질문
-
자연 질문은에 제출된 실제 사용자 질문으로 구성된 데이터 세트입니다.Google 검색.
- TriviaQA
-
TriviaQA는 650K 개가 넘는가 포함된 데이터 세트입니다question-answer-evidence-triples. 이 데이터 세트는 질문 및 답변 작업에 사용됩니다.
- 전자 상거래에서 여성용 의류 리뷰
-
전자 상거래 여성용 의류 리뷰는 고객이 작성한 의류 리뷰가 포함된 데이터 세트입니다. 이 데이터 세트는 텍스트 분류 작업에 사용됩니다.
다음 표에는 작업 유형별로 그룹화된 사용 가능한 데이터 세트 목록이 나와 있습니다. 자동 지표 계산 방법에 대한 자세한 내용은 Amazon Bedrock에서 자동화된 모델 평가 작업에 대한 지표 검토(콘솔) 섹션을 참조하세요.
작업 유형 | 지표 | 기본 제공 데이터 세트 | 계산된 지표 |
---|---|---|---|
일반 텍스트 생성 | 정확도 | TREX |
실제 지식(RWK) 점수 |
견고성 | 단어 오류 발생률 | ||
TREX |
|||
WikiText2 |
|||
유해성 | 유해성 | ||
BOLD |
|||
텍스트 요약 | 정확도 | Gigaword |
BERTScore |
유해성 | Gigaword |
유해성 | |
견고성 | Gigaword |
BERTScore 및 deltaBERTScore | |
질문 및 답변 | 정확도 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
견고성 | BoolQ |
F1 및 deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
유해성 | BoolQ |
유해성 | |
NaturalQuestions |
|||
TriviaQA |
|||
텍스트 분류 | 정확도 | 전자 상거래에서 여성용 의류 리뷰 |
정확도(classification_accuracy_score에 따른 이진 정확도) |
견고성 | 전자 상거래에서 여성용 의류 리뷰 |
classification_accuracy_score 및 delta_classification_accuracy_score |
사용자 지정 프롬프트 데이터 세트를 만들기 위한 요구 사항 및 예제에 대한 자세한 내용은 Amazon Bedrock의 모델 평가에 사용자 지정 프롬프트 데이터세트 사용 섹션을 참조하세요.
Amazon Bedrock의 모델 평가에 사용자 지정 프롬프트 데이터세트 사용
자동 모델 평가 작업에서 사용자 지정 프롬프트 데이터 세트를 생성할 수 있습니다. 사용자 지정 프롬프트 데이터 세트는 Amazon S3에 저장해야 하며, JSON 줄 형식과 .jsonl
파일 확장자를 사용해야 합니다. 각 줄은 유효한 JSON 객체여야 합니다. 자동 평가 작업당 데이터 세트에 최대 1,000개의 프롬프트가 있을 수 있습니다.
콘솔을 사용하여 생성한 작업의 경우 S3 버킷에서 교차 오리진 리소스 공유(CORS) 구성을 업데이트해야 합니다. 필요한 CORS 권한에 대한 자세한 내용은 섹션을 참조하세요S3 버킷에 필요한 교차 오리진 리소스 공유(CORS) 권한.
사용자 지정 데이터 세트에서 다음 키 값 페어를 사용해야 합니다.
-
prompt
- 다음 작업에 대한 입력을 나타내는 데 필요합니다.-
모델이 응답해야 하는 프롬프트(일반적으로 텍스트 생성)입니다.
-
질문 및 답변 작업 유형에서 모델이 답변해야 하는 질문입니다.
-
모델이 텍스트 요약 작업에서 요약해야 하는 텍스트입니다.
-
모델이 분류 작업에서 분류해야 하는 텍스트입니다.
-
-
referenceResponse
- 다음 작업 유형에 대해 모델을 평가할 때 실측 응답을 나타내는 데 필요합니다.-
질문 및 답변 작업의 모든 프롬프트에 대한 답변입니다.
-
모든 정확성 및 견고성 평가에 대한 답변입니다.
-
-
category
- (선택 사항) 각 범주에 대해 보고된 평가 점수를 생성합니다.
예를 들어 정확도에는 질문과 모델의 응답을 확인하는 답변이 모두 필요합니다. 이 예제에서는 다음과 같이 질문에 포함된 값이 있는 prompt
키를 사용하고 답변에 포함된 값을 가진 referenceResponse
키를 사용합니다.
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
이전 예제는 추론 요청으로 모델로 전송되는 JSON 라인 입력 파일의 한 줄입니다. 모델은 JSON 라인 데이터 세트의 이러한 모든 레코드에 대해 호출됩니다. 다음 데이터 입력 예제는 평가를 위해 필요에 따라 category
키를 사용하는 질문 및 답변 작업에 해당하는 내용입니다.
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}