3. オブザーバビリティとモデル管理 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

3. オブザーバビリティとモデル管理

チェックリストのオブザーバビリティとモデル管理セクションには、ML システム全体のモデルバージョン管理とリネージ追跡が含まれます。モデルバージョニングは、モデルに適用されたすべての変更を追跡および制御し、必要に応じて以前のバージョンを復元できるようにします。系統追跡は、モデルのインフローとアウトフローに関するビューを提供します。系統追跡のもう 1 つの主な利点はpoint-in-timeリカバリ (PITR) です。

3.1 バージョニングされたモデルレジストリ

一般に、モデルレジストリは、モデルコンポーネントのバージョン管理と系統追跡をサポートしています。適切なレジストリは、以下を含むメタデータをバージョニングされたモデルに関連付けることができます。

  • 使用されるデータ

  • モデルに関する情報

  • 評価メトリクスの結果

  • 関連付けられたモデルコード

3.2 バイアス、公平性、説明可能性

ML システムには、少なくともモデルの予測を他の当事者に説明できるプロセスが必要です。ユーザーは、各機能によるバイアスの結果をチェックできる必要があります。理想的には、データを ML モデルに入力する前にデータバイアスを測定し、モデルカードと監査のためにこれらのメトリクスを記録します。

3.3 系統追跡: データ入力と出力

追跡は、システムに出入りするデータのフローに従うために設定されています (例えば、データレイクからトレーニングパイプラインへの実行)。この追跡は、すべてのシステムプロセスを再作成できるレコードとして機能し、分析のための監査証跡を提供します。

3.4 系統追跡: 環境情報

この追跡では、すべてのモデルコードのコンテナイメージやコンテナの関連する依存関係など、ランタイム環境の設定に関する情報がキャプチャされます。

3.5 系統追跡: モデル

この追跡は、モデルに関する情報をキャプチャします。これには、モデルのアルゴリズムに関する情報から、モデルに入るパラメータやハイパーパラメータまで、すべてが含まれます。

3.6 デプロイとモニタリングとの統合

システムは、PITR のモニタリングおよびデプロイサブシステムと直接リンクする必要があります。モニタリングの場合、モデルのパフォーマンスをトレーニング実行と照らし合わせてテストし、モデル品質の低下を検出することを意味します。デプロイでは、PITR と、必要に応じて以前のモデルバージョンにロールバックする機能をサポートしています。

3.7 パイプラインパラメータの設定

技術的には、パイプラインパラメータの設定は系統追跡と実験追跡の両方に分類されます。これは、パイプライン設定をバージョニングし、モデルに直接関連付ける必要があるためです。パイプラインパラメータ設定は、すべてのシステムオーケストレーション設定を追跡してバージョン管理することが必須であるため、このセクションに一覧表示されます。

3.8 問題は追跡可能で、デバッグ可能で、再現可能です。

エンジニアは、システム内のすべての問題を、多大な労力をかけずに追跡、デバッグ、再現できます。これは、十分なレベルのオブザーバビリティが設定されていることを意味します。このチェックは、主にオブザーバビリティとモデル管理セクションの他の項目を満たすことから算出されます。

3.9 パフォーマンスの視覚化

システムは、ログをキャプチャして時系列データベースタイプ形式で収集し、ダッシュボードに直接取り込むことができます。ダッシュボードには、モデルメトリクスとコンピュータメトリクスの両方を包括的に表示でき、ドリルダウンとクエリを実行できます。