LLMは騙される？ Microsoft Research によるセキュリティ対策の最前線 • vonxai blog

ChatGPTをはじめとする大規模言語モデル（LLM）は、私たちに革新的な可能性をもたらす一方で、そのセキュリティリスクへの懸念が高まっています。Microsoft Researchが発表した最新の研究論文は、LLMが抱える様々な脆弱性とその対策に焦点を当て、私たちに警鐘を鳴らしています。

LLMは、まるで魔法の箱のように、私たちが投げかける質問に自然な文章で答えてくれます。しかし、その裏には巧妙な攻撃によって騙され、悪用される危険性が潜んでいるのです。

LLMを狙う多様な攻撃手法：トレーニング段階と推論段階

LLMのライフサイクルは、大きく分けてトレーニング段階と推論段階に分かれます。そして、それぞれの段階において、異なる攻撃手法がLLMを脅かしています。

トレーニング段階では、LLMが学習するデータそのものを改ざんする攻撃が仕掛けられます。例えば、データポイズニング攻撃では、悪意のあるデータが学習データに混入され、LLMの挙動を操作されてしまいます。また、特定の入力に対して意図しない動作を引き起こすバックドア攻撃では、LLM内部に隠された「罠」が仕掛けられ、攻撃者がその罠を起動させる特定のキーワードを入力することで、LLMを不正に操作することが可能になります。

推論段階では、ユーザーとLLMのやり取りの中で、巧妙な入力操作によってLLMを騙す攻撃が仕掛けられます。例えば、 ジェイルブレーキング攻撃は、LLMに設定された安全対策を回避し、本来は出力されるべきではない情報を引き出す攻撃です。これは、LLMの倫理的な利用を逸脱させ、差別的な発言や偽情報の生成を引き起こす可能性があります。具体的な例としては、OpenAIが開発したChatGPTにおいて、特定の指示を巧妙に組み合わせることで、本来は拒否されるべき質問に答えてしまうケースが報告されています。

ジェイルブレーキング攻撃の脅威

ジェイルブレーキング攻撃の脅威は、近年ますます深刻化しています。研究者たちは、ChatGPTを含む様々なLLMに対して、多段階の巧妙なプロンプト操作を行うことで、LLMの安全対策を突破し、機密情報などを不正に引き出す攻撃の実証に成功しています。

近年の研究では、実際の攻撃において、攻撃者はより隠密で洗練された方法でLLMを攻撃していることが明らかになっています。驚くべきことに、ChatGPTやGPT-4といった高度なLLMでさえも、ジェイルブレーキング攻撃に対して脆弱であり、一部の攻撃では成功率が99%に達することも報告されています。

ジェイルブレーキング攻撃は、大きく分けて「目標乗っ取り」と「プロンプトリーク」といった2つの攻撃意図に分類できます。「目標乗っ取り」は、LLMの本来の目的を攻撃者の意図に沿って変更する攻撃であり、「プロンプトリーク」は、LLMの内部情報や学習データの一部を不正に引き出す攻撃です。これらの攻撃意図を理解することは、LLMのセキュリティ強化に不可欠です。

その他の推論段階における攻撃

ジェイルブレーキング攻撃以外にも、LLMは推論段階において以下のようないくつかの攻撃手法に対して脆弱です。

言い換え攻撃: 入力テキストの意味を変えずに表現を変えることで、検知システムを欺き、LLMに悪意のある指示を実行させる攻撃です。これは、例えば、検閲システムを回避して、有害なコンテンツを生成させるために利用される可能性があります。
なりすまし攻撃: 攻撃者がLLMを模倣することで、偽の情報を生成し拡散させることが可能になります。これは、なりすましによる詐欺やフェイクニュースの拡散などに悪用される危険性があります。
プロンプトインジェクション攻撃: LLMに対する指示文（プロンプト）に悪意のあるコードを注入し、LLMを不正に操作する攻撃です。これは、LLMを利用したシステムに侵入し、機密情報を盗み出したり、システムを破壊したりするために悪用される可能性があります。

LLMを守るための2つの砦：モデル編集とクロマチーミング

これらの攻撃からLLMを守るために、Microsoft Researchは 「モデル編集」 と 「クロマチーミング」 という2つの主要な戦略を提唱しています。

モデル編集は、LLMの構造やパラメータを調整することで、脆弱性を修正し、攻撃に対する耐性を高める手法です。具体的には

MEND（Model Editor Networks with Gradient Decomposition）
ROME（Rank-One Model Editing）
SERAC（Semantic Edit Retrieval and Classification）
MEMIT（Mass-Editing Memory in a Transformer）

といった手法が研究されており、それぞれ異なるアプローチでLLMの挙動を修正し、攻撃への耐性を向上させています。

一方、 クロマチーミングは、従来のセキュリティ分野で用いられてきたレッドチーム（攻撃）とブルーチーム（防御）に加え、グリーンチーム（創造的解決）とパープルチーム（評価）を加えた、より多角的なセキュリティ評価・改善のアプローチです。レッドチームは攻撃者の視点でLLMの脆弱性を探索し、ブルーチームは防御策を講じます。グリーンチームは新たな攻撃手法や防御策を開発し、パープルチームは両チームの成果を評価し、改善を促します。

クロマチーミングは、これらのカラーチームの専門知識と経験を結集することで、LLMのセキュリティを強化することを目指します。

LLMの脆弱性と緩和策の概要

LLMの脆弱性と緩和策

LLMセキュリティ研究の未来：残された課題

LLMのセキュリティ研究はまだ始まったばかりであり、多くの課題が残されています。Microsoft Researchは、今後の研究開発の方向性として、以下のような項目を挙げています。

モデルアーキテクチャやモデルサイズと脆弱性の関係性：LLMの構造や規模が、その脆弱性にどのように影響するのかを解明する必要があります。
転移学習やファインチューニングの影響：LLMを特定のタスクに適応させるための転移学習やファインチューニングが、セキュリティにどのような影響を与えるのかを分析する必要があります。
新たな攻撃手法の特定と対策: LLMに対する新たな攻撃手法を常に監視し、効果的な対策を開発していく必要があります。
攻撃の影響評価: それぞれの攻撃手法が、LLMにどのような影響を与えるのかを具体的に評価することで、対策の優先順位を決定することができます。
クロマチーミングの自動化: クロマチーミングを効率的に行うための自動化ツールを開発することで、より多くのLLMに対してセキュリティ評価を行うことができます。
モデル編集手法の多角的な評価: さまざまなモデル編集手法の有効性と安全性を、多様なデータセットとモデルを用いて評価する必要があります。
モデル編集のための統合プラットフォーム開発: モデル編集を容易に行うための統合的なプラットフォームを開発することで、LLMのセキュリティ強化を促進することができます。

まとめ：安全なLLMの未来に向けて

LLMは、私たちの生活を豊かにする可能性を秘めた革新的な技術ですが、そのセキュリティリスクを軽視することはできません。LLMの開発者、研究者、利用者は、その脆弱性を理解し、適切な対策を講じることで、安全で信頼性の高いLLMの利用環境を築き上げていく必要があります。

自社のセキュリティポリシーの策定や、セキュリティ対策にご不安ですか？弊社のサービスは、組織が抱える課題を解決し、セキュリティ対策に関する様々なソリューションを提供しています。ぜひお気軽にご相談ください！

参考資料:

Can LLMs be Fooled? Investigating Vulnerabilities in LLMs