1. データ中心の管理 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

1. データ中心の管理

データ管理とは、トレーニング、テスト、推論に使用されるデータが適切に管理、保護、検証されるようにする方法です。大規模にモデルを構築する場合、データは高いモデルパフォーマンスを可能にする主要な商品です。

1.1 データリポジトリ

データリポジトリには、データを追跡し、その送信元を確認する機能が必要です。新しいデータが追加または削除されると、データリポジトリはpoint-in-timeリカバリでそれらの変更を記録します。データリポジトリでは、ラベルデータの追跡方法と処理方法、および中間データアーティファクトの追跡方法を考慮する必要があります。

1.2 多様なデータソースの統合

アプリケーションによっては、モデルのトレーニングに多くのソースからのデータが必要になる場合があります。モデルを構築するには、利用可能なデータソースとそれらがどのように結びついているかを ML 実務者に知らせるマニフェストを設計して維持することが重要です。

1.3 データスキーマの検証

モデルデータを供給するには、トレーニングデータが同種であることが重要です。Amazon Simple Storage Service (Amazon S3) やドキュメントデータストアなどのデータレイクソリューションに保存されているデータには、変換やその他の探索的分析が必要になる場合があります。

1.4 データバージョニングとリネージ

本番環境で使用する可能性のあるモデルをトレーニングするときは、結果を再現でき、モデル全体のパフォーマンスをよりよく理解するために、凸状研究を確実に実行できる必要があります。トレーニングデータの状態を追跡することは、この再現性にとって重要です。データバージョン管理 (DVC) などのツールが役立ちます。

1.5 ラベル付けワークフロー

プロジェクトの開始時にラベル付きデータが利用できない場合、ラベル付きデータの作成は多くの場合、必要なステップです。Amazon SageMaker Ground Truth などのツールでは、入力データを適切に構造化する必要があり、定義されたテスト済みのラベル付けジョブが必要です。内部または外部のラベラーのワークフォースを使用する必要があります。その後、冗長ラベル付けまたは機械学習アプローチを使用してデータを検証し、トレーニングデータセットの外れ値またはエラーを特定する必要があります。

1.6 オンラインおよびオフラインの機能ストレージ

ML システムには特徴量ストアまたは特徴量と関連するメタデータの一元化されたストアがあり、特徴量やモデル入力を再利用できます。オンラインストアまたはオフラインストアを作成できます。低レイテンシーのリアルタイム推論のユースケースには、オンラインストアを使用します。トレーニングとバッチ推論にはオフラインストアを使用します。