기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
자동 평가 작업의 결과 이해
자동 모델 평가 작업이 완료되면 결과가 Amazon S3에 저장됩니다. 아래 섹션에서는 생성된 파일과 이를 해석하는 방법을 설명합니다.
output.json
파일 구조 해석
output.json
파일에는 선택한 데이터 세트 및 지표의 집계 점수가 포함됩니다.
다음은 출력 예제입니다.
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
인스턴스별 결과 파일의 구조 해석
1개evaluation_name
_dataset_name
각 jsonlines 요청에 대한 인스턴스별 결과가 포함된 .jsonl 파일입니다. jsonlines 입력 데이터에 300
요청이 있는 경우 이 jsonlines 출력 파일에 300
응답이 포함됩니다. 출력 파일에는 모델에 대한 요청과 해당 평가의 점수가 포함됩니다. 인스턴스 전체 출력의 예는 다음과 같습니다.
보고서 해석
평가 보고서에는 파운데이션 모델 평가 작업의 결과가 포함됩니다. 평가 보고서의 내용은 모델을 평가하는 데 사용한 작업의 종류에 따라 달라집니다. 각 보고서에는 다음 섹션이 포함되어 있습니다.
-
평가 작업에서 성공한 각 평가의 전체 점수입니다. 하나의 데이터 세트가 포함된 하나의 평가의 예로서 정확성 및 의미론적 완건성에 대한 분류 작업에 대해 모델을 평가한 경우 정확성 및 정확성 의미론적 완건성에 대한 평가 결과를 요약하는 표가 보고서 상단에 나타납니다. 다른 데이터 세트의 다른 평가는 다르게 구조화될 수 있습니다.
-
모델 이름, 유형, 사용된 평가 방법, 모델이 평가된 데이터 세트를 포함한 평가 작업의 구성입니다.
-
평가 알고리즘을 요약하고, 기본 제공 데이터 세트에 대한 정보와 링크, 점수 계산 방법, 관련 점수와 함께 일부 샘플 데이터를 보여주는 테이블을 제공하는 세부 평가 결과 섹션입니다.
-
완료되지 않은 평가 목록이 포함된 평가 실패 섹션입니다. 실패한 평가가 없는 경우 보고서의 이 섹션은 생략됩니다.