データ戦略 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データ戦略

質問

レスポンスの例

生成 AI ワークロードにとって重要な特定のデータ型と、現在アクセス可能なデータ型の割合

顧客通話ログと製品レビューデータは重要です。現在、これらのデータ型の 85% は生成 AI プロジェクトでアクセスできます。

データの品質をどのように確認および測定しますか?

完全性、正確性、一貫性、適時性などのデータ品質メトリクスを実装しました。自動ツールを使用してこれらのメトリクスを定期的に評価し、データのクレンジングとエンリッチメントに特化したチームを設けています。

データの何パーセントが生成 AI 使用の品質基準を満たしていますか?

現在、データの 78% が品質基準を満たしています。データクリーニングプロセスの改善により、今後 12 か月以内に 95% を目指しています。

生成 AI におけるデータ使用量に関する信頼をステークホルダーの間でどのように構築する予定ですか?

AI 掲示板を実装し、AI の決定を明確に説明し、透明性と公平性を確保するために四半期ごとの AI 監査を実施しています。

データソースと系統に関するドキュメントはどの程度包括的ですか?

当社は、オリジン、更新頻度、使用状況など、すべてのデータソースのメタデータを含む詳細なデータカタログを維持します。データリネージュツールを使用して、システム全体でのデータフローと変換を追跡します。

AI モデルのバイアスを防ぐために、データセットの多様性をどのように確保しますか?

当社は、さまざまな属性から積極的にデータを調達し、データセットに表現バイアスがないか定期的に監査しています。また、合成データ生成手法を使用して、過小評価されているカテゴリのバランスを取ります。

重要な生成 AI モデルのデータ更新レートはどれくらいですか。また、この頻度はどのように決定しますか。

重要なモデルは毎週更新されます。この頻度は A/B テストのパフォーマンスメトリクスによって決定され、更新間のパフォーマンス低下は 2% 以下を目指します。

重要なデータセットのバージョンをいくつ、どのくらいの期間維持していますか?

各重要なデータセットの最後の 5 つのバージョンを維持し、各バージョンの保存期間は 18 か月です。

生成 AI イニシアチブに関与し、データにアクセスできる部門横断的なチームはいくつありますか?

3 つの部門横断的なチームがあります。各チームには、データサイエンティスト、ドメインエキスパート、倫理学者、ビジネスアナリストが含まれます。

どのようなデータガバナンスポリシーとプラクティスを実施していますか?

データポリシーを監督する部門横断的なデータガバナンス委員会があります。ガバナンスフレームワークへの準拠を確保するために、ロールベースのアクセスコントロール、データ分類スキーム、および定期的な監査を実装しました。

データプライバシーを確保し、適切な同意を取得し、機密性を維持するためにどのような対策を講じていますか?

GDPR と CCPA に沿った包括的なデータプライバシーフレームワークを実装しました。これには、データ使用に対する明示的な同意の取得、データ匿名化手法の実装、定期的なプライバシー影響評価が含まれます。

前四半期にバイアスについて監査された AI トレーニングデータセットの割合はどれくらいですか?

AI トレーニングデータセットの 70% が前四半期にバイアスについて監査されました。自動バイアス検出ツールを実装して、四半期ごとの監査を 100% 達成しています。

現在のデータ処理能力はどれくらいですか。また、将来の生成 AI ワークロードにはどの程度のプロジェクトが必要ですか。

現在の容量は 10 TB/日です。1 年内に 30 TB/日が必要と予測され、この需要に合わせてインフラストラクチャをスケーリングしています。

データプライバシーと生成 AI モデルのデータニーズのバランスを取る戦略は何ですか?

高度な匿名化技術と合成データ生成を実装しています。当社の目標は、AI の使用可能なデータを 40% 増やし、来年のプライバシーリスクを 60% 削減することです。

機械学習 (ML) データセットの何パーセントが正確にラベル付けされ、目標精度率はどれくらいですか?

現在、ML データセットの 85% が正確にラベル付けされています。ヒューマンラベリング手法と自動ラベリング手法の両方を採用することで、次の四半期に 95% の精度を目指しています。