ライフサイクル全体にわたるAIデータの保護
データセキュリティがなければAIは機能しない。最近の米国の国家安全保障局(NSA)サイバーセキュリティ情報(CSI)ガイダンスは最も重要なものを保護する方法を示している。
- AI の導入が拡大するにつれ、データの整合性がセキュリティ上の最大の懸念事項となっています。
- CSI のガイダンスでは、汚染、サプライ チェーンの問題、ドリフトなど、AI データに対する主要なリスクが強調されています。
- また、ライフサイクル全体にわたって AI データを保護および管理するためにセキュリティ ソリューションに必要な機能についても説明します。
AIの導入が加速するにつれ、AIの基盤となるデータを保護する必要性も高まっています。モデルの学習からリアルタイムの意思決定まで、AIシステムは信頼性の高い、整合性の高いデータに依存しています。しかし、そのデータが偶発的または悪意を持って操作されると、AIは検出が困難で、復旧もさらに困難な方法で機能不全に陥る可能性があります。
2025年5月、NSAのAIセキュリティセンター、サイバーセキュリティ及びインフラセキュリティ局(CISA)、FBI、そして国際的なパートナーを含むサイバーセキュリティリーダーの連合が、このリスクに対処するための新たなガイダンスを発表しました。AIデータセキュリティに関するサイバーセキュリティ情報シート(CSI)では、 AIシステムのライフサイクルのあらゆる段階において、データセキュリティが「最重要」であるとされています。
CSIは、AIライフサイクル全体を通して、暗号化、デジタル署名、来歴追跡、安全なストレージ、信頼できるインフラストラクチャといったエンドツーエンドの保護を推奨しています。実際には、データは取り込み時に検証され、整合性管理によって管理され、意図的であれ悪意であれデータ改ざんを防ぐために継続的に監視される必要があります。このブログでは、この課題について考察します。
主なリスク領域:データ・サプライチェーン、データ・ポイズニング、データ・ドリフト
この課題に取り組むために、CSI は、データが最も危険にさらされる 3 つの重要な瞬間、つまりデータ・サプライ チェーン、データ・ポイズニングのリスク、および時間の経過による検出されないデータ・ドリフトを特定しています。
データ・サプライチェーン
大規模なサードパーティ製データセットには、意図せず、あるいは悪意を持って導入されたエラーやバックドアが含まれている可能性があります。検証されていないトレーニングデータは、直接的なモデルを破損させるだけでなく、「それを基盤として利用する追加モデル」にも悪影響を及ぼします。
これを軽減するために、組織は新しいデータを取り込む前に堅牢な検証(チェックサムやデジタル署名など)を実施し、各データセットのソースと整合性を証明するコンテンツ認証情報やメタデータを通じてデータの出所を追跡する必要があります。データは使用前に「悪意のあるコンテンツや不正確なコンテンツが含まれていない」ことが証明され、取り込み後は追記専用の署名付きストアに保管される必要があります。
悪意を持って改変された(「汚染された」)トレーニングデータ(データ・ポイズニング)
攻撃者は、トレーニングパイプラインに微妙な破損や偽の記録を挿入しようとする可能性があります。CSIでは、トレーニングセットの継続的な検証を求めています。疑わしいエントリや異常なエントリは削除またはフラグ付けし、改ざんを検出するためにデータセットの取り込み時に暗号署名を行います。
組織は、データおよびモデルプロバイダーに対し、入力データに既知の侵害が含まれていないことを正式に証明するよう求めるべきです。データの利用者とキュレーターは、署名されたデータの収集と安全な保管から、ネットワークとユーザーアクティビティのリアルタイム監視による予期せぬ変更の検出まで、エンドツーエンドの整合性を維持する必要があります。
データ・ドリフト
時間の経過とともに、入力データの統計特性が変化(「ドリフト」)し、モデルの精度が低下する可能性があります。この劣化は自然な現象ですが、攻撃とは区別する必要があります。CSIは、緩やかな変化は通常は正常なドリフトを示し、急激な変化はポイズニングの兆候である可能性があると指摘しています。
組織はAIの入出力を継続的に監視し、入力データの分布をトレーニングのベースラインと比較する必要があります。データ管理プロセス(最新のデータによる定期的な再トレーニング、クレンジング、アンサンブルモデル)は、モデルのキャリブレーションを維持するのに役立ちます。医療など、リスクの高い環境では、わずかなドリフトでさえも問題となるため、「入力データの追加分析によるモデルのパフォーマンスの継続的な監視」が重要です。
適切なデータセキュリティソリューションでどのように簡単に
AIデータセキュリティのベストプラクティスに沿ったセキュリティポートフォリオを持つベンダーを選ぶことが重要です。データ損失を防ぎ、異常な動作を検知し、AIデータパイプラインへの高度な攻撃から防御するための階層化された制御機能を備えているかを確認しましょう。これらのソリューションがデータ保護にどのように役立つか、以下に説明します。
- データ損失防止(DLP)。AI環境において、堅牢なDLPソリューションは、きめ細かなポリシー制御とあらゆるチャネルを通じた継続的な監視を適用することで、トレーニングデータとモデルを盗難や不正使用から保護します。コンテンツ検査と分類により、AIトレーニングでよく使用されるような、独自データや規制対象データの漏洩をブロックします。
- ユーザーおよびエンティティの行動分析(UEBA) 。UEBAプラットフォームは、DLP、エンドポイント保護、CASB、Active Directoryなどのツール間のアクティビティを相関させ、AIデータに関連する内部脅威、侵害、疑わしい行動を明らかにし、チームが迅速に対応できるようにします。
- エンドポイントセキュリティ。エンドポイントセキュリティは、AIデータが保存およびアクセスされるシステムを保護し、AIトレーニングデータやモデルを侵害する可能性のあるマルウェア、認証情報の盗難、不正アクセスをブロックします。Active Directoryの脅威防御、アダプティブプロテクション、 AIによる攻撃者の次の動きの予測といった高度な機能により、AIが依存するシステム全体で機密データを保護します。
- エンドポイント検出および応答 (EDR) 。 AIデータストアとパイプラインを保護するには、エンドポイントのアクティビティ(プロセス、ファイル変更、レジストリイベント)を継続的に記録し、セキュリティアナリストがリアルタイムで脅威をハンティングできるEDRソリューションが必要です。攻撃チェーンの可視化(攻撃の各ステップを可視化)やカスタマイズ可能な行動検知などの機能に注目してください。
全てを連携させて、今。
これらのソリューションを組み合わせることで、CSIが推奨する安全対策の運用化を支援します。DLPとエンドポイント制御を組み合わせることで機密データの境界を強化し、高度な分析によって分散したシグナルを統合し、AIを活用した脅威予測によってプロアクティブな防御を実現します。その結果、サプライチェーンの改ざん、ポイズニング攻撃、ステルス的な侵入からより強固に保護されたAIデータパイプラインが実現します。
AIデータ保護の戦略的必要性
AIデータの保護は極めて重要です。モデルには独自のビジネスインサイトや顧客の機密情報が含まれることが多く、その精度は信頼できる入力情報に左右されます。CSIは、 AIの導入が進むにつれて、データセキュリティは「精度、信頼性、完全性を維持するためにますます重要になる」と警告しています。データの暗号化、アクセス制御の適用、データストリームの監査といった予防的な対策は、ステルス性の高い敵に対抗するために不可欠です。
シマンテックとCarbon Blackは、CSIのAIデータセキュリティに関する最高水準に準拠したツールを提供することで、組織がこれらの原則を実践できるよう支援します。これにより、CISOやコンプライアンス責任者は、機密性の高いAI資産を保護するために必要な制御機能を備えることができます。業界にとって最善の道は、侵害発生後に対処するのではなく、AIに対応したデータセキュリティを業務に組み込むことです。つまり、分析、自動化、ポリシー適用を活用して、問題が発生する前に検知することです。
Symantec DLP が最も機密性の高いデータを保護する仕組みを確認するには、まずこの短いビデオをご覧ください。





