2. 実験 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

2. 実験

実験では、実験のログ記録、追跡、メトリクスについて説明します。これは、プラットフォーム、ソース管理、開発環境全体での実験メタデータ統合につながります。実験には、デバッグを通じてモデルのパフォーマンスと精度を最適化できることも含まれます。

2.1 統合開発環境

統合開発環境 (IDE) はクラウドと直接統合されています。IDE は とやり取りし、より大きなシステムにコマンドを送信できます。理想的には、以下をサポートします。

  • ローカル開発

  • バージョン管理の統合

  • デバッグが実施され、生成されたすべてのログとアーティファクトがバージョン管理に送られる

2.2 コードバージョン管理

再現性と再利用性を確保するために、すべてのコードは適切なバージョン管理でソースリポジトリにコミットされます。これには、インフラストラクチャコード、アプリケーションコード、モデルコード、さらにはノートブック (使用を選択した場合) も含まれます。

2.3 追跡

ML プロジェクトには、機械学習実験を追跡および分析できるツールが必要です。このツールは、機械学習実験の実行中にすべてのメトリクス、パラメータ、アーティファクトを記録し、すべてのメタデータを一元的な場所に記録する必要があります。中央の場所には、実行するすべての実験を分析、視覚化、監査する機能があります。

2.4 クロスプラットフォーム統合

実験とそのすべてのメタデータの履歴結果は、システムの他の部分でアクセスできます。例えば、所定のオーケストレーションパイプラインは、モニタリングツールと同様に、このデータにアクセスできます。

2.5 デバッグ: 精度とシステムパフォーマンス

次の実行を調べるための包括的なモデルデバッグフレームワークが用意されています。

  • ボトルネックを見つける

  • 異常に関するアラート

  • リソース使用率を最大化する

  • 実験の分析を支援する

トレーニングが集中的である場合は、スループットを最大化する能力が重要であり、コスト最適化に必要なツールとなります。