セキュリティのパースペクティブ: AI システムのコンプライアンスと保証 - 人工知能、機械学習、および生成 AI の AWS クラウド 導入フレームワーク

セキュリティのパースペクティブ: AI システムのコンプライアンスと保証

セキュリティは AWS の最優先事項であり、規模にかかわらず、AWS の安全なインフラストラクチャと新しいサービスへの継続的な投資からメリットを得られます。AI AWS ワークロードを開発しているお客様にとって、セキュリティは AWS ソリューション全体の不可欠な部分です。生成 AI は、ビジネス成果を実現するための基盤モデルをスケーリングするための重要なイネーブラーで、生成 AI ワークロードを作成する方法は複数あります。AI のあらゆる側面でセキュリティとプライバシーを統合することは、ビジネス成果の全体的な成功に不可欠です。AI を使用する基本的なビジネスケースには、日常的な生産性向上タスクのシンプルな自動化から、機密データを含む複雑な医療や財務上の意思決定まで、さまざまなビジネス課題の解決が含まれます。リスク管理手法を適用し、このパースペクティブで定義されたセキュリティおよびプライバシー機能を実装して、ビジネスニーズを満たします。

基礎的能力 説明
Vulnerability Management AI の脆弱性を継続的に特定、分類、修復、軽減する
セキュリティガバナンス AI ワークロードに関連する役割と責任とともに、セキュリティポリシー、標準、ガイドラインを確立する
セキュリティ保証 AI ワークロードの規制およびコンプライアンス要件に対するセキュリティおよびプライバシーの対策を適用、評価、検証する
脅威検知 AI ワークロードにおける潜在的な AI 関連のセキュリティの脅威や予期しない動作を検出して軽減する
インフラストラクチャの保護 AI ワークロードの運用に使用されるシステムとサービスを保護する
データ保護 AI の開発と使用におけるデータの可視性、安全なアクセス、制御を維持する
アプリケーションセキュリティ AI ワークロードのソフトウェア開発ライフサイクルプロセス中に脆弱性を検知して軽減する
Identity and Access Management (IAM) この能力は AI にとって充実したものではなく、AWS CAF を参照してください
インシデントへの対応 この能力は AI にとって充実したものではなく、AWS CAF を参照してください

脆弱性管理

AI の脆弱性を継続的に特定、分類、修復、軽減します。

AI システムには、プロンプトインジェクション、データポイズニング、モデルインバージョン脆弱性など、注意すべきテクノロジー固有の脆弱性が存在する場合があります。AI システムの 3 つの重要なコンポーネントは、入力、モデル、出力です。これらのコンポーネントは、以下のベストプラクティスで保護でき、ワークロードの潜在的な脆弱性を軽減できます。

  • 入力の脆弱性は、モデルへのエントリーポイントを含むすべてのデータに関連します。この入力は、ターゲットモデルや分布のドリフトの目標となります。攻撃者は、時間の経過とともに決定に影響を与えようとしたり、特定のデータに隠れたバイアスや機密性を意図的に挿入したりします。データ品質の自動化と継続的なモニタリングにより、このような入力を強化します。モデルの悪用は AI ソリューションへのプロンプトインジェクションに起因する脆弱性の一例です。データや命令のクラウドは相互に組み合わされているため、急速に進化する基盤モデルの分野では特に注意が必要です。大規模言語モデル (LLM) へのアクセスを特定のユーザーに制限することで、入力検証を実行してデータを命令から分離し、最小特権の原則を使用します。システムコマンド、実行ファイル、および広範な運用上の影響を与えるログアクションへのアクセスは避けてください。

  • モデルの脆弱性は、現実世界の虚偽表示とモデル内に表示されるデータの悪用に関するものです。脅威モデリングを使用して、既知の文書化された脅威を軽減することで、モデルを強化します。商用の生成 AI モデルを使用する場合は、そのデータソース、モデルの微調整に使用する条件、およびモデル自体またはサードパーティーライブラリの使用によって影響を受ける可能性のある脆弱性を確認してください。モデルの目標とその結果がモニタリングされ、時間の経過とともに一貫性が保たれていることを検証し、モデルのドリフトを防ぎます。

  • 出力の脆弱性は、長期間にわたるシステムとの対話に関連しており、これにより、モデルの入力とプロパティに関する重要な情報を推測できる可能性があります (これは多くの場合、データ漏えいと呼ばれます)。生成 AI では、クロスサイトの脆弱性とリモート実行を軽減するために、その出力がサニタイズされ、直接使用されていないことを確認します。これらは、ワークロードで考慮が必要な脆弱性のほんの一部です。すべての AI システムがこれらの脆弱性を持っているわけではありませんが、実際のワークロードに適用されるリスクには細心の注意を払ってください。プレイブックで規定されている修復を検証するために、定期的なテスト、ゲームデー、机上演習を行います。

セキュリティガバナンス

AI ワークロードに関連する役割と責任とともに、セキュリティポリシー、標準、ガイドラインを確立します。

内部および外部でホストされている商用モデル、またはオープンソースモデルを使用するためのポリシーが明確に定義されていることを確認します。同様に、商用の生成 AI モデルを使用する場合、組織の機密データが商用モデルのプラットフォームに漏洩するリスクを考慮してください (「データ保護機能」を参照)。セキュリティの取り組みの優先順位付けに役立つ、業界や組織に適用される AI に関連する資産、セキュリティリスク、コンプライアンス要件を理解します。特定されたロールに十分なセキュリティリソースを割り当て、可視性を提供します。

AI に関連するリスクは、プライバシーの侵害、データの操作、不正使用、漏洩した意思決定など、広範囲にわたる影響を与える可能性があります。AI 環境の完全性と機密性を保護するために、堅牢な暗号化、多要素認証、継続的なモニタリング、リスク許容やフレームワーク (NIST AI RMF など) との整合性を実装することが重要です。

以下に、ワークロードの 3 つの重要なコンポーネントについての継続的な指示とアドバイスを示します。

  • 入力 - データソースと AI の使用を承認できるユーザーを明確にします。データ分類や機密性、データセット内の規制対象データの存在、データの来歴、データの古さ、データを処理する権利など、承認プロセスのデータの側面を考慮してください。リスクを管理するには、ソースの評価、受信方法、保存または保護方法などの要因を考慮して、入力データの調達に使用するメカニズムを評価します。公開されている AI ソリューションでは機密データを処理できないなど、ソースデータのデータ分類がソリューションの分類と一致していることを確認します。

  • モデル - モデルの作成とトレーニングの役割と責任を明確にします。モデルリリースの作成者、承認者、パブリッシャーのアプローチに関連する役割を確立します。リスクを管理するには、関連するツールや個人を含むモデルトレーニングメカニズムを評価して、意図的な、または意図しない脆弱性の導入を防ぎます。出力に影響する脆弱性がないかについて、モデルのアーキテクチャを評価します。すべてのモデルの障害モードが、閉鎖、またはセキュアな状態で失敗するようにして、データが公開されないようにします。

  • 出力 - 作成された出力のライフサイクル管理を確立します。分類基準を確立し、潜在的に異なるデータセットやデータの分類の結果に細心の注意を払ってください。リスクを管理するには、適切な保護と保持の制御を定め、個人を特定できる情報 (PII) などの重要性と機密性に基づいてデータを分類し、適切なアクセスコントロールを定義します。データ保護コントロールとライフサイクル管理ポリシーを定義します。プライバシー規制やその他のコンプライアンスへの準拠を含む、堅牢なデータ共有プロトコルを確立します。

セキュリティ保証

AI ワークロードの規制およびコンプライアンス要件に対するセキュリティおよびプライバシーの対策を適用、評価、検証します。

組織、およびサービスや製品を提供する顧客には、実装したコントロールに対する信頼と革新が必要です。顧客やユーザーの AI 関連のリスクや潜在的な悪用に対する認識と機密性が高まるにつれ、高いセキュリティ基準が満たされることを期待するようになります。サイバーセキュリティを優先し、規制要件を満たし、AI に固有のビジネス目標とリスク許容度に沿ったセキュリティリスクを効果的かつ効率的に管理できる方法で、ソリューションの設計、開発、デプロイ、モニタリングを行います。モニタリングを慎重に行い、法律の専門家、コンプライアンスの専門家、データサイエンティスト、情報テクノロジーの専門家の間に透明性とコラボレーションを提供することで、確実性に対する包括的なアプローチの検証に役立ちます。テスト手順と修復プロセスを実装することで、確実性に対する積極的なアプローチが可能になります。ワークロードの 3 つの重要なコンポーネントを継続的にモニタリングして評価します。

  • 入力 — モデルではトレーニングと分析に大量のデータが必要になることが多いため、取り込んだデータのタイプがモデルの目標と成果に沿っていることを確認する必要があります。確立された制御フレームワークへの準拠を理解するための監査メカニズムを確立します。

  • モデル — 組織のポリシーに従って、ユーザーが AI を許可されている範囲で使用していることを確認します。ポリシーと制御を実装して、組織が AI を使用するのが適切な場所とそうでない場所を理解していることを確認します。監査メカニズムを確立して、モデルがデータをどのように使用しているか、また組織内のどこで AI 機能が使用されているかを特定します。

  • 出力 — 出力の許容可能な使用基準を確立し、データが再利用される場所や追加の AI モデルに再導入される可能性がある場所に注意を払ってください。検出または監査メカニズムを確立して出力データを確認し、生成されたデータを機密データまたは規制対象のデータの推測または再作成に使用できないようになっていることを確認します。医療での診断など、信頼度が最優先される出力の信頼性と作成場所を検証するためのメカニズムを作成します。

個々のプライバシーを保持するには、データの不正なアクセス、悪用、開示を防ぐために、法律および法的なガイドラインを厳密に順守する必要があります。AI の可能性のバランスを取り、プライバシー権を尊重することで、社会の信頼を得ることができ、これらの機能の利点を実現できます。保護情報の詳細については、Well-Architected フレームワークの「MLSEC-05: 機密データのプライバシーを保護する」を参照してください。透明性とインフォームドコンセントなどのメカニズムを確立します。データ保持を機能に必要なものだけに制限し、データ共有に関する同意を実装します。考慮すべきワークロードの 3 つの重要なコンポーネントに関連するプライバシー要件は以下のとおりです。

  • 入力 — プライバシー関連の規制の対象となるデータ (GDPR、CCPA、COPPA、PDPA など) がどのように使用されるかを理解し、データを処理するための法的根拠が存在するかを検証します。データレジデンシーおよびデータの保存場所または処理場所を考慮します。規制されたデータの使用ごとに、プライバシー影響評価 (PIA) または同様のプロセスを確立します。

  • モデル — モデルをトレーニングまたはチューニングする際は、データ処理の法的根拠が存在するかどうか、および対象データの透明性を示すことができるかどうかを考慮します。モデルからの潜在的な漏洩に関連するプライバシー影響評価または同様のプロセスを確立します。

  • 出力 — 規制されたデータが追加のモデルのトレーニングに使用されているかどうか、および個人データの二次使用の制限が適用されるかどうかを考慮します。削除権または忘れられる権利タイプのリクエストに応えるための仕組みを確立します。検出または監査メカニズムを確立して出力データを確認し、生成されたデータが匿名化済みのデータの推測または再作成に使用できないようになっていることを確認します。

脅威検知

AI ワークロードにおける潜在的なセキュリティの脅威や予期しない動作を検出して軽減します

ML または生成 AI システムの 3 つの重要なコンポーネント (入力、モデル、出力) の保護を改善するには、以下のベストプラクティスを使用し、ワークロードへの脅威を検出して軽減します。

  • 入力 — AI ソリューションの脅威の検出は、ビジネスに影響を与える可能性のある脆弱性を軽減するために非常に重要です。入力データをサニタイズして、モデルの使用開始時に脅威を検出します。ユーザーセッションの入力データを追跡し続け、可用性や誤用に影響を与える可能性のある脅威を検出して軽減します。

  • モデルAI システムに固有の脅威モデリング脅威ハンティングの演習を行い、潜在的な脅威を検出して軽減します。脅威モデルとモニタリングを更新して、予期しないユーザー入力を含むトレーニングモデル、コンテンツまたはトレーニングに使用されるデータセットのポイズニング、プライバシー違反、データ改ざんを含む AI の脅威の概念を含めます。入力データとモデルで使用されるデータを相関させ、異常なアクティビティや悪意のあるアクティビティを検出します。

  • 出力 — モデルの目標から逸脱した出力異常をモニタリングし、モデル出力内の機密データを検出するためのチェックを有効にします。ワークロードを対象とした特定済みの既知の脅威を含む脅威カタログを構築します。自動テストを作成して、検出機能を検証し、脅威インテリジェンスの統合を検証して有効性を高め、誤検知を低減します。有効性を高め、誤検知を低減する脅威インテリジェンスの使用を検討してください。

インフラストラクチャの保護

AI ワークロードの運用に使用されるシステムとサービスを保護します。

MLOps は AI ワークロードに DevOps プラクティスを使用し、セキュリティは環境全体を構成するインフラストラクチャに適用する必要があります。AI モデルには安全なエンドポイントを使用し、レート制限モデルアクセスには Amazon API Gateway を使用します。使用するすべての内部および外部 APIAPI セキュリティのベストプラクティスを使用し、独自の VPC 外のモデルからの API コールの明示的な許可リストを作成します。セキュリティリファレンスアーキテクチャで規定されているセキュリティ機能の使用から始め、環境に基づいてネットワーク、コンピューティング、ストレージのセキュリティ制御を適用します。

モデルは、ネットワークとサーバーにまたがる複数の環境に分散されます。これらの環境間の通信は、転送中の暗号化を使用して保護する必要があります。開発環境と本番環境を一元的に設定し、セキュリティ管理者によって個別に管理される予防ガードレールと検出ガードレールを適用しますモデルトレーニングなどの機密性の高いタスクの開発環境を分離します。エンドユーザーがセッション分離を使用してエクスペリエンスの整合性を保持し、意図しないデータ開示を防止できることを確認します。コンプライアンスおよびトラブルシューティングの目的で、出力レスポンスおよび関連するセッションデータのログを Write Once Read Many (WORM) ストレージデバイスに記録します。セキュリティ問題の原因となる可能性のあるエッジユースケースを発見して軽減するために、モデルの脆弱性報奨金制度を使用することを検討してください。

データ保護

AI の開発と使用におけるデータの可視性、安全なアクセス、制御を維持します。

データ保護は、AI 開発ライフサイクル全体で、またセキュリティガバナンスによって定義されたデータ保護ポリシー (Well-Architected の機械学習レンズに記載されている MLSEC-07: 関連するデータのみ保持するなど) が運用されている場合に、非常に重要なものです。生成 AI 開発に商用モデルを使用する場合は、データをモデルへの入力として直接使用すると、機密情報が公開される可能性があることに注意してください。同様に、独自のモデルや自己ホスト型モデルに保護データへのアクセスを許可すると、データ関連の権限昇格の余地が生じる可能性があります。必要に応じてモデルの使用条件とサービス利用規約を評価します。モデル開発のトレーニング前フェーズと微調整フェーズでモデル開発のために収集されたデータは、転送、保管、使用において保護する必要があります。データトークン化プロセスを使用して、クリーニング、正規化、変換などのデータ前処理フェーズの一環として、機密データを非機密データトークンに置き換えることを検討してください。モデルで使用されるすべてのデータソース、特にモデルのトレーニングに使用される推論データに対して検証可能なメカニズムを作成します。機密データや、機密クラスのエスカレーションにつながる可能性のあるデータのアラートをモニタリングして作成します。データアクティビティのモニタリング手法を採用し、使用や頻度ごとなどでアクセスパターン検出します。機密データを使用してモデルをトレーニングすることは避けてください。これは、モデル出力からデータが意図せず開示される可能性があるためです (推論中のデータ漏洩など)。さまざまな環境でのトレーニングに使用されるデータをタグ付けしてラベル付けし、データタグとラベルをデータ分類ポリシーと標準に沿ったものにします。非本番環境や開発リージョンのデータ系統とデータアクセスが制御され、モデルの脆弱性を引き起こすデータ操作が防止されていることを確認します。CI/CD パイプラインを使用して、整合性を維持するために、テスト環境と本番環境にデータを昇格することを検討してください。データアクセスの監査証跡を作成しながら、機密データをログに記録してマスクします。機密データストア、および設計上、指定されたデータクラスのデータ (機密データなど) を保存しないことを想定しているデータストアにデータ損失防止技術を実装し、機密データの意図しない開示をモニタリングします。モデル出力のデータ品質を検証して、信頼性を高め、ハルシネーションを防ぎます。モデルデータ出力の機密レベルをモニタリングし、機密レベルが上昇した場合に、秘匿化または隔離されたレスポンスによる再分類をトリガーします。例えば、新しい入力データセットがモデルによって使用される場合、またはモデルのトレーニングに使用される場合は、出力データが既存の機密性レベルに準拠していることを確認します。

アプリケーションのセキュリティ

AI ワークロードのソフトウェア開発ライフサイクルプロセス中に脆弱性を検知して軽減します。

モデル開発者が、プロンプトテストやその他のセキュリティテストケースを自分の環境でローカルに実行し、CI/CD パイプラインでモデルの使用を検証していることを確認します。テストケースライブラリを作成し管理して、カバレッジを検証し、自動化を有効にします。すべての開発、テスト、本番環境のセキュリティスキャンと統合されたデータとモデルパイプラインを活用し、すべてのモデルアーティファクトを安全なリポジトリに保存します。AI モデルのインベントリを管理し、明確に指定した技術所有者とビジネス所有者にモデルインスタンスを割り当てます。既知の優れたトレーニング済みモデルがバックアップされていることを確認します。ポイントインタイムリカバリを保持して、侵害されたモデルが既知の正常な状態に戻ることができるようにします。モデルとデータのバックアップへのアクセスを保護して侵害されていないことを確認し、モデル復旧を定期的にテストして、既知の正常な状態へのフルリカバリを有効にします。出力結果の有効性をサポートするために、パラメータ、メタデータなど、モデルやデータ開発に関連するデータを追跡し、データの来歴を確認します。運用ランブックを作成して使用し、運用上またはセキュリティ上のインシデントが発生した場合に実行できるデータセットとモデルのロールバックメカニズムを個別にテストして、回復性を実現します。