Amazon Bedrock의 자동 모델 평가 작업에 대한 지표 검토 (콘솔) - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock의 자동 모델 평가 작업에 대한 지표 검토 (콘솔)

Amazon Bedrock 콘솔을 사용하여 자동 모델 평가 작업에 대한 보고서에 표시된 지표를 검토할 수 있습니다.

모델 평가 보고서 카드에는 제공하거나 선택한 데이터 세트의 총 프롬프트 수와 해당 프롬프트 중 응답을 받은 수가 표시됩니다. 응답 수가 입력 프롬프트의 수보다 작은 경우 Amazon S3 버킷의 데이터 출력 파일을 확인합니다. 프롬프트로 인해 모델에 오류가 발생하여 추론이 검색되지 않았을 수 있습니다. 모델의 응답만 지표 계산에 사용됩니다.

Amazon Bedrock 콘솔에서 자동 모델 평가 작업을 검토하려면 다음 절차를 사용합니다.

  1. Amazon Bedrock 콘솔을 엽니다.

  2. 탐색 창에서 모델 평가를 선택합니다.

  3. 다음으로 모델 평가 테이블에서 검토하려는 자동 모델 평가 작업의 이름을 찾습니다. 그런 다음 이름을 선택합니다.

모든 시맨틱 견고성 관련 지표에서 Amazon Bedrock은 텍스트를 모두 소문자로 변환, 키보드 오타, 숫자를 단어로 변환, 대문자로 무작위 변경, 공백 무작위 추가/삭제와 같은 방식으로 프롬프트를 변경시킵니다.

모델 평가 보고서를 연 후 요약된 지표와 작업 구성 요약을 볼 수 있습니다.

작업 생성 시 지정된 각 지표 및 프롬프트 데이터 세트에는 카드 한 개와 해당 지표에 지정된 각 데이터 세트의 값이 표시됩니다. 이 값이 계산되는 방식은 선택한 작업 유형과 지표에 따라 달라집니다.

일반 텍스트 생성 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도: 이 지표의 경우 실제 지식 점수 (RWK점수) 를 사용하여 값을 계산합니다. RWK점수는 실제 세계에 대한 사실적 지식을 인코딩하는 모델의 능력을 검사합니다. RWK점수가 높으면 모형이 정확하다는 뜻입니다.

  • 견고성: 이 지표의 경우 시맨틱 견고성을 사용하여 값을 계산합니다. 이는 단어 오류율을 사용하여 계산됩니다. 시맨틱 견고성은 입력에서 발생하는 사소한 시맨틱 보존 변동의 결과로 모델 출력이 얼마나 변하는지를 측정합니다. 이러한 변동에 대한 견고성은 바람직한 속성이므로 시맨틱 견고성 점수가 낮으면 모델이 잘 작동하고 있음을 나타냅니다.

    살펴볼 변동 유형으로는 텍스트를 모두 소문자로 변환, 키보드 오타, 숫자를 단어로 변환, 대문자로 임의 변경, 공백 무작위 추가/삭제 등이 있습니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다.

  • 유해성: 이 지표의 경우 유해성 제거 알고리즘의 유해성을 사용하여 값을 계산합니다. 유해성 값이 낮으면 선택한 모델에서 유해성 콘텐츠가 대량으로 생성되지 않는다는 의미입니다. 해독 알고리즘에 대해 자세히 알아보고 독성 계산 방법을 보려면 해독 알고리즘을 참조하십시오. GitHub

텍스트 요약 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도: 이 지표의 경우 점수를 사용하여 값을 계산합니다. BERT BERT점수는 모델에서 사전 학습된 컨텍스트 임베딩을 사용하여 계산됩니다. BERT 코사인 유사도를 기준으로 후보 문장과 참조 문장의 단어를 일치시킵니다.

  • 견고성: 이 지표의 경우 계산된 값은 백분율입니다. (델타BERTScore/BERTScore) x 100을 취하여 계산합니다. 델타는 혼란스러운 프롬프트와 데이터셋의 원래 프롬프트 간의 BERT 점수 BERTScore 차이입니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다. 점수가 낮을수록 선택한 모델이 더 강력하다는 의미입니다.

  • 유해성: 이 지표의 경우 유해성 제거 알고리즘의 유해성을 사용하여 값을 계산합니다. 유해성 값이 낮으면 선택한 모델에서 유해성 콘텐츠가 대량으로 생성되지 않는다는 의미입니다. 해독 알고리즘에 대해 자세히 알아보고 독성 계산 방법을 알아보려면 해독 알고리즘을 참고하세요. GitHub

질문 및 답변 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도: 이 지표의 경우 값은 F1 점수를 사용하여 계산됩니다. F1 점수는 정밀도 점수(모든 예측에 대한 올바른 예측의 비율)를 재현율 점수(관련 예측의 총 수에 대한 올바른 예측의 비율)로 나누어 계산합니다. F1 점수의 범위는 0에서 1까지이며, 값이 높을수록 성능이 더 좋습니다.

  • 견고성: 이 지표의 경우 계산된 값은 백분율입니다. (Delta F1/F1) x 100을 취하여 계산합니다. 델타 F1은 교란된 프롬프트와 데이터셋의 원래 프롬프트 간의 F1 점수 차이입니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다. 점수가 낮을수록 선택한 모델이 더 강력하다는 의미입니다.

  • 유해성: 이 지표의 경우 유해성 제거 알고리즘의 유해성을 사용하여 값을 계산합니다. 유해성 값이 낮으면 선택한 모델에서 유해성 콘텐츠가 대량으로 생성되지 않는다는 의미입니다. 해독 알고리즘에 대해 자세히 알아보고 독성 계산 방법을 보려면 해독 알고리즘을 참조하십시오. GitHub

텍스트 분류 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도: 이 지표의 경우 계산된 값은 정확합니다. 정확도는 예측 클래스를 실측 레이블과 비교하는 점수입니다. 정확도가 높을수록 모델이 제공된 실측 레이블을 기반으로 텍스트를 올바르게 분류하고 있음을 나타냅니다.

  • 견고성: 이 지표의 경우 계산된 값은 백분율입니다. (델타 분류 정확도 점수/분류 정확도 점수) x 100을 취하여 계산합니다. 델타 분류 정확도 점수는 교란된 프롬프트와 원래 입력 프롬프트의 분류 정확도 점수 간의 차이입니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다. 점수가 낮을수록 선택한 모델이 더 강력하다는 의미입니다.