쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Amazon Bedrock에서 자동화된 모델 평가 작업에 대한 지표 검토(콘솔)

포커스 모드
Amazon Bedrock에서 자동화된 모델 평가 작업에 대한 지표 검토(콘솔) - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Bedrock 콘솔을 사용하여 자동 모델 평가 작업에 대한 보고서에 제시된 지표를 검토할 수 있습니다.

모델 평가 보고서 카드에는 제공하거나 선택한 데이터 세트의 총 프롬프트 수와 해당 프롬프트 중 응답을 받은 수가 표시됩니다. 응답 수가 입력 프롬프트의 수보다 작은 경우 Amazon S3 버킷의 데이터 출력 파일을 확인합니다. 프롬프트로 인해 모델에 오류가 발생하여 추론이 검색되지 않았을 수 있습니다. 모델의 응답만 지표 계산에 사용됩니다.

Amazon Bedrock 콘솔에서 자동 모델 평가 작업을 검토하려면 다음 절차를 사용합니다.

  1. Amazon Bedrock 콘솔을 엽니다.

  2. 탐색 창에서 모델 평가를 선택합니다.

  3. 다음으로 모델 평가 테이블에서 검토하려는 자동 모델 평가 작업의 이름을 찾습니다. 그런 다음 이름을 선택합니다.

모든 시맨틱 견고성 관련 지표에서 Amazon Bedrock은 텍스트를 모두 소문자로 변환, 키보드 오타, 숫자를 단어로 변환, 대문자로 무작위 변경, 공백 무작위 추가/삭제와 같은 방식으로 프롬프트를 변경시킵니다.

모델 평가 보고서를 연 후 요약된 지표와 작업 구성 요약을 볼 수 있습니다.

작업 생성 시 지정된 각 지표 및 프롬프트 데이터 세트에는 카드 한 개와 해당 지표에 지정된 각 데이터 세트의 값이 표시됩니다. 이 값이 계산되는 방식은 선택한 작업 유형과 지표에 따라 달라집니다.

일반 텍스트 생성 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도:이 지표의 경우 값은 실제 지식 점수(RWK 점수)를 사용하여 계산됩니다. RWK 점수는 실제 세계에 대한 사실적 지식을 인코딩하는 모델의 능력을 검사합니다. 높은 RWK 점수는 모델이 정확함을 나타냅니다.

  • 견고성: 이 지표의 경우 시맨틱 견고성을 사용하여 값을 계산합니다. 이는 단어 오류율을 사용하여 계산됩니다. 시맨틱 견고성은 입력에서 발생하는 사소한 시맨틱 보존 변동의 결과로 모델 출력이 얼마나 변하는지를 측정합니다. 이러한 변동에 대한 견고성은 바람직한 속성이므로 시맨틱 견고성 점수가 낮으면 모델이 잘 작동하고 있음을 나타냅니다.

    살펴볼 변동 유형으로는 텍스트를 모두 소문자로 변환, 키보드 오타, 숫자를 단어로 변환, 대문자로 임의 변경, 공백 무작위 추가/삭제 등이 있습니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다.

  • 유해성: 이 지표의 경우 유해성 제거 알고리즘의 유해성을 사용하여 값을 계산합니다. 유해성 값이 낮으면 선택한 모델에서 유해성 콘텐츠가 대량으로 생성되지 않는다는 의미입니다. 해독 알고리즘에 대해 자세히 알아보고 독성 계산 방법을 알아보려면 의 해독 알고리즘을 참조하세요 GitHub.

텍스트 요약 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도:이 지표의 경우 점수는 BERT를 사용하여 계산됩니다. BERT 점수는 BERT 모델의 사전 훈련된 컨텍스트 임베딩을 사용하여 계산됩니다. 코사인 유사도를 기준으로 후보 문장과 참조 문장의 단어를 일치시킵니다.

  • 견고성: 이 지표의 경우 계산된 값은 백분율입니다. (델타 BERTScore / BERTScore) x 100을 취하여 계산됩니다. DeltaBERTScore는 연동 프롬프트와 데이터 세트의 원래 프롬프트 간의 BERT 점수 차이입니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다. 점수가 낮을수록 선택한 모델이 더 강력하다는 의미입니다.

  • 유해성: 이 지표의 경우 유해성 제거 알고리즘의 유해성을 사용하여 값을 계산합니다. 유해성 값이 낮으면 선택한 모델에서 유해성 콘텐츠가 대량으로 생성되지 않는다는 의미입니다. 해독 알고리즘에 대해 자세히 알아보고 독성 계산 방법을 알아보려면 의 해독 알고리즘을 참조하세요 GitHub.

질문 및 답변 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도: 이 지표의 경우 값은 F1 점수를 사용하여 계산됩니다. F1 점수는 정밀도 점수(모든 예측에 대한 올바른 예측의 비율)를 재현율 점수(관련 예측의 총 수에 대한 올바른 예측의 비율)로 나누어 계산합니다. F1 점수의 범위는 0에서 1까지이며, 값이 높을수록 성능이 더 좋습니다.

  • 견고성: 이 지표의 경우 계산된 값은 백분율입니다. (Delta F1/F1) x 100을 취하여 계산합니다. Delta F1은 변경된 프롬프트와 데이터세트의 원래 프롬프트 간의 F1 점수 차이입니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다. 점수가 낮을수록 선택한 모델이 더 강력하다는 의미입니다.

  • 유해성: 이 지표의 경우 유해성 제거 알고리즘의 유해성을 사용하여 값을 계산합니다. 유해성 값이 낮으면 선택한 모델에서 유해성 콘텐츠가 대량으로 생성되지 않는다는 의미입니다. 해독 알고리즘에 대해 자세히 알아보고 독성 계산 방법을 알아보려면 의 해독 알고리즘을 참조하세요 GitHub.

텍스트 분류 작업 유형에 적용할 때 사용 가능한 각 지표를 계산하는 방법
  • 정확도: 이 지표의 경우 계산된 값은 정확합니다. 정확도는 예측 클래스를 실측 레이블과 비교하는 점수입니다. 정확도가 높을수록 모델이 제공된 실측 레이블을 기반으로 텍스트를 올바르게 분류하고 있음을 나타냅니다.

  • 견고성: 이 지표의 경우 계산된 값은 백분율입니다. (델타 분류 정확도 점수/분류 정확도 점수) x 100을 취하여 계산합니다. 델타 분류 정확도 점수는 변동된 프롬프트와 원래 입력 프롬프트의 분류 정확도 점수 간의 차이입니다. 데이터 세트의 각 프롬프트는 약 5번 변동됩니다. 그런 다음, 변동된 각 응답이 추론을 위해 전송되고 이를 사용하여 견고성 점수를 자동으로 계산합니다. 점수가 낮을수록 선택한 모델이 더 강력하다는 의미입니다.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.