AIはWebの罠を見抜けるか？LLMエージェントにおけるダークパターンの影響と脆弱性 • vonxai blog

日常のWeb操作を代行してくれるLLMベースのWebエージェントは、業務効率化やタスク自動化の強力なツールとして注目を集めています。しかし、インターネット上にはユーザーを意図しない行動（意図しない課金やメルマガ登録など）へ誘導する「ダークパターン」と呼ばれる悪意あるUIが蔓延しています。人間のユーザーを狙ったこれらの罠に対して、自動化されたAIエージェントは適切に対処できるのでしょうか。

本記事では、パデュー大学などの研究チームが発表した論文「Investigating the Impact of Dark Patterns on LLM-Based Web Agents」に基づき、LLMエージェントがダークパターンに直面した際の影響と、その脆弱性の実態について解説します。

調査の概要：エージェントはダークパターンをどう認識するか

本研究では、Eコマース、ニュース、ストリーミング、健康ポータルの4ジャンルを模したテスト環境「TrickyArena」を構築し、6つの一般的なWebエージェント（Skyvern、DoBrowser、BrowserUse、Agent-E、WebArena、VisualWebArena）と3つのLLM（Claude 3.7 Sonnet、GPT-4o、Gemini 2.5 Pro）を用いて、エージェントの行動ログを記録・分析しています。

Webエージェントは、画面のスクリーンショットやHTMLコード、アクセシビリティツリーなどのデータを読み取り、LLMの推論能力を用いて次の行動を決定します。しかし、Webサイト上には「ポップアップの閉じるボタンが極端に小さい」「カートに勝手に保証サービスが追加される」といったダークパターンが存在します。これまで、エージェントに対する外部からのプロンプトインジェクション攻撃は研究されてきましたが、Webサイトの標準的なUIとして存在するダークパターンがエージェントの意思決定に与える影響は未解明でした。

優秀なエージェントほど陥りやすい罠のパラドックス

実験の結果、単一のダークパターンが存在する環境下において、エージェントは平均して41%の確率でその罠に陥ることが明らかになりました。ここで注目すべきは、タスクの成功率（本来の目的を達成する能力）と、ダークパターンに対する影響（罠への引っかかりやすさ）の間に強い相関関係が見られた点です。

図表1：単一ダークパターン有無でのエージェント別タスク成功率

図表1が示す通り、BrowserUseやSkyvernといったタスク成功率の高い高性能なエージェントは、ダークパターンが存在しない環境では高いパフォーマンスを発揮します。しかし同時に、ダークパターンに対する影響も高く（約70%前後）、不要なオプションを追加したり、意図しないサブスクリプションに同意したりする割合が高くなっています。これは、高性能なエージェントが画面上の障害（ポップアップなど）を何とかして乗り越え、タスクを完了させようと努力する結果、罠を回避するのではなく受け入れてしまうためです。

一方、タスク成功率の低いエージェントは、ダークパターンに到達する前に処理に失敗するか、ポップアップなどの障害物に直面した際にどう行動すべきか分からず停止してしまう傾向があります。結果として、意図せず罠を「回避」している状態になり、影響の数値自体は低く出ています。

基盤となるLLMごとのパフォーマンスと脆弱性の違い

Webエージェントの頭脳となるLLMの種類も、ダークパターンへの耐性に大きな影響を与えます。本研究では、Claude 3.7 Sonnet、GPT-4o、Gemini 2.5 Proの3つの最先端モデルを用いて比較実験を行いました。

図表2：各LLMモデルのパフォーマンス比較

指標	Claude 3.7 Sonnet	GPT-4o	Gemini 2.5 Pro
ダークパターンなしのタスク成功率	65.2%	68.5%	68.8%
単一ダークパターンありのタスク成功率	56.8%	48.7%	56.8%
タスク成功率の相対変化	-12.9%	-28.9%	-17.4%
ダークパターン影響率	53.8%	51.3%	65.8%
騙されて完了	33.2%	31.7%	37.5%
騙されて失敗	20.6%	19.6%	28.3%
回避して完了	23.6%	17.0%	19.3%
回避して失敗	22.6%	31.7%	14.9%

図表2の通り、ダークパターンが存在しない安全な環境では、Gemini 2.5 Proが最も高いタスク成功率（68.8%）を示しました。しかし、ダークパターンが存在する環境においては状況が変化します。GPT-4oは罠によるタスク成功率の低下幅が最も大きく（-28.9%）、Gemini 2.5 Proはダークパターンに騙されてしまう確率が最も高い（65.8%）という結果になりました。

これに対して、Claude 3.7 Sonnetは、騙された状態でタスクを完了してしまう割合が他よりも低く、罠を回避してタスクを完了する割合が高い傾向が見られました。これは、Claudeが持つ倫理的な自己評価フレームワーク（Constitutional AI）が、不審なUIに対する一定の抑止力として働いている可能性を示唆しています。ただし、どのLLMを選択した場合でも、エージェント側のプロンプト構造やアーキテクチャとの組み合わせによって結果は大きく変動するため、一概にどのLLMが完全に安全とは言えません。

複数の罠の組み合わせと「視覚能力」の思わぬ悪影響

実際のWebサイトでは、複数のダークパターンが同時に展開されていることが少なくありません。研究では、複数のダークパターンを組み合わせたシナリオでもテストを行いました。

図表3：複数のダークパターンが存在する場合のエージェントの影響分布

複数のダークパターンが存在すると、エージェントのタスク成功率は全体的に低下します。図表3で示されているように、画面上に現れる罠の数が増えれば増えるほど、エージェントは処理すべき情報と障害物で混乱し、単独の罠であれば回避できたはずのエージェントでさえ、最終的にいずれかのダークパターンに引っかかってしまう確率が高まります。

さらに興味深い発見として、エージェントの「視覚能力（Vision）」による影響が挙げられます。画面のスクリーンショットを直接解析できる視覚機能をオンにした場合、タスク成功率が向上し罠を避けやすくなると予想されがちです。しかし実際には、ほとんどのエージェントにおいて視覚機能を有効にした方がタスク成功率が低下し、ダークパターンへの影響が増加しました。人間を騙すために巧妙に視覚的なデザインが施されたダークパターンは、画像を解析するエージェントに対しても強く作用してしまうことを示しています。

プロンプトによる防御の限界と安全な自動化への課題

このような脆弱性に対し、システム側からプロンプトを通じて「ダークパターンに注意して」と指示を出すことで、被害を防ぐことができるのでしょうか。研究チームは、エージェントへの指示内容に警告の文言を追加し、その効果を測定しました。

図表4：プロンプト指示（ポストスクリプト）による防御効果の分析

図表4は、警告なし（No Postscript）、一般的な警告（General）、具体例を挙げた警告（Intermediate）、そして「特定のチェックボックスを外すように」と非常に具体的に指示した警告（Specific）の結果を比較したものです。具体的な指示を与えるほどタスク成功率は上がり、罠に陥る確率は下がりました。しかし、最も詳細な指示を与えた場合でも、依然として43.0%という高い確率でダークパターンに引っかかっています。

この結果は、LLMエージェントに対する事前のテキスト指示だけでは、ダークパターンの脅威を完全に排除できないことを証明しています。

まとめ：自律型AIエージェントの普及に向けて不可欠な「防衛力」

これまで、AIエージェントの開発や評価は「どれだけ複雑なタスクをこなせるか（性能）」に焦点が当てられてきました。しかし、ノイズや悪意に満ちた現実のWeb環境でエージェントを安全に稼働させるためには、罠を見抜き、適切に処理する 「防衛力（堅牢性）」 が不可欠です。

人間であれば「怪しい」と直感的に気づいてブラウザを閉じるような場面でも、タスクの完遂に忠実なエージェントは、突き進んで意図しない契約やプライバシー情報の提供を行ってしまう危険性があります。

私たちが安心してAIに「おつかい」を任せられる未来を実現するためには、アドブロッカーのような事前フィルタリングツールの導入や、エージェントの計画プロセス内にダークパターンを検知して回避策を講じる専用のモジュールを組み込むなど、より踏み込んだ対策が求められます。単なる「便利さ」を超え、「安全性」と「信頼性」をどう担保するかが、今後のAIエージェント開発における最大の鍵となるでしょう。

Webサービスや社内のセキュリティにお困りですか？弊社のサービスは、開発チームが抱える課題を解決し、生産性と幸福度を向上させるための様々なソリューションを提供しています。ぜひお気軽にご相談ください！

参考資料:

Investigating the Impact of Dark Patterns on LLM-Based Web Agents