カスタムトレーニングジョブを評価
評価レシピとは、Amazon Nova モデル評価ジョブの実行方法を定義する YAML 設定ファイルを指します。このレシピを使用すると、ベースモデルまたはトレーニング済みモデルのパフォーマンスを、一般的なベンチマークまたは独自のカスタムデータセットに照らして評価できます。メトリクスは Amazon S3 または TensorBoard に保存できます。この評価では、さまざまなタスクにわたってモデルのパフォーマンスを評価し、さらなるカスタマイズが必要かどうかを判断するのに役立つ定量的メトリクスが提供されます。
モデル評価はオフラインプロセスであり、モデルは事前定義された回答を持つ固定ベンチマークに照らしてテストされます。リアルタイムでの評価やライブユーザーインタラクションに照らした評価は行われません。リアルタイム評価の場合、Amazon Bedrock ランタイム API を呼び出して、Amazon Bedrock にモデルをデプロイした後にモデルを評価できます。
トレーニング済みの Amazon Nova モデルを評価する詳細な手順については、「SageMaker ユーザーガイド」の「Evaluating your trained model」セクションを参照してください。