4. 堅牢なパイプラインとプロモーション - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

4. 堅牢なパイプラインとプロモーション

Pipelines には、ハイパーパラメータ調整、AutoML、および処理ルーチンの多くのオプションが用意されています。パイプラインはエンドツーエンドでログに記録されます。堅牢なパイプラインは、複数のインスタンスとフレームワークでトレーニングを並行して実行し、必要に応じて負荷サイズをスケーリングできます。堅牢なパイプラインにより、モデルを本番環境に昇格させ、リアルタイム、ストリーミング、バッチでデプロイできます。これらのデプロイでは、シングルモデルまたはマルチモデル推論をサポートできます。

4.1 大規模で分散型のトレーニング

成熟した ML システムは、大規模なコンピューティング最適化インスタンスでトレーニングを並行して実行する機能をサポートします。このツールには、これらのリソースが完全に使用され、トレーニングがコンピューティングクラスター全体で均等にスケーリングされるようにするためのツールが用意されています。

4.2 複数のフレームワークのサポート

開発者は、PyTorch や Flax などのさまざまなプラットフォームフレームワークを移植して、トレーニングジョブや推論ジョブを実行できます。同様に、さまざまな言語とバージョンがサポートされ、使用できます。別のフレームワークに切り替えても、システムは破損しません。

4.3 ハイパーパラメータの調整

ハイパーパラメータ調整ステップは、トレーニングパイプラインの一部です。デプロイされたモデルでは、ハイパーパラメータが調整されます。ハイパーパラメータを調整するには、複数のオプションを使用できます。精度を向上させるには、少なくとも 1 つの調整オプションにベイズ推論またはアプローチが必要です。

4.4 AutoML オプション

手動による実験と比較を減らすために、成熟した ML システムは AutoML の実行をサポートしています。AutoML は、最適な機能パイプライン、ハイパーパラメータ、モデルを自動的に選択します。AutoML は、実用的に使用する機能ですが、パナセアではないことに注意してください。

4.5 推論のサポート: リアルタイム

これは一般的に、Model as a Service (MaaS) と呼ばれます。このシステムは、REST API オペレーションによるリアルタイム推論をサポートし、オンデマンドで推論リクエストを行います。モデルが水平方向と垂直方向の両方でスケーリングできる MaaS インフラストラクチャをスタンドアロン API または他のアプリケーションに関連付けられたエンドポイントとして出荷できます。または、サーバーレステクノロジーを使用してデプロイすることもできます。

4.6 推論のサポート: ストリーミング

モデルは、Amazon Kinesis や Amazon Managed Streaming for Apache Kafka などのリアルタイム推論形式に昇格できます。これにより、推論はモデル上でストリーミング形式で実行されます。ガードレール、オブザーバビリティ、モニタリングはリアルタイムの推論に不可欠であるため、チェックリストの少なくとも 90% を完了する必要があります。

4.7 推論のサポート: バッチ

システムは、スケジュールされたジョブまたは開始されたジョブとしてモデルのバッチデプロイをサポートします。システムは、抽出、変換、ロード (ETL) プロセスの一部として、または単独でモデルを実行できます。バッチジョブは、各ステップの状態を記録し、有向非巡回グラフなどの順序付けられたパターンで実行されます。または、ジョブはモデル推論のサーバーとして機能するデータベースに書き込むことができます。

4.8 前処理ルーチンと後処理ルーチン

必要に応じて、データはモデル取り込みプロセスまたはバッチジョブの一部として特徴化されます。複数のモデルまたは複数のステップが実行中の場合、後処理ルーチンがデータの特徴量化を処理します。

4.9 階層モデルまたは同時モデルを呼び出す機能

ML システムは、多数のモデルをまとめてデプロイすることも、順番に実行することもできます。前者は、リソースのフリート全体で単一のモデルエンドポイントでホストすることを意味します。後者は、複数のモデルを順番に連鎖的に実行する必要があることを意味します。システムは、これらのタイプの複雑さの両方を回復力を持って処理できます。

4.10 水平スケーリング戦略と垂直スケーリング戦略

パイプラインには、トレーニングと推論の両方のスケーリング戦略をサポートできる必要があります。ML システムは、レイテンシーまたはスループットが増大すると、そのサイズを増やし、複数のマシンにトラフィックを分散できます。このタイプの動作のポリシーが設定され、最適なリソース割り当てが考慮されます。

4.11 End-to-endのログ記録

開発チームは、ログ記録がシステム内の入力、出力、中間ステップをキャプチャできるように、すべてのパイプラインコード内にログ記録を設定する必要があります。ログ記録では、パイプラインでの実行のトレースとエラーのデバッグをサポートする必要があります。