Home

AIはWebの罠を見抜けるか?LLMエージェントにおけるダークパターンの影響と脆弱性

公開日

img of AIはWebの罠を見抜けるか?LLMエージェントにおけるダークパターンの影響と脆弱性
•••

日常のWeb操作を代行してくれるLLMベースのWebエージェントは、業務効率化やタスク自動化の強力なツールとして注目を集めています。しかし、インターネット上にはユーザーを意図しない行動(意図しない課金やメルマガ登録など)へ誘導する「ダークパターン」と呼ばれる悪意あるUIが蔓延しています。人間のユーザーを狙ったこれらの罠に対して、自動化されたAIエージェントは適切に対処できるのでしょうか。

本記事では、パデュー大学などの研究チームが発表した論文「Investigating the Impact of Dark Patterns on LLM-Based Web Agents」(2026年IEEE Symposium on Security and Privacy採択予定)に基づき、LLMエージェントがダークパターンに直面した際の影響と、その脆弱性の実態について解説します。

調査の概要:エージェントはダークパターンをどう認識するか

本研究では、Eコマース、ニュース、ストリーミング、健康ポータルの4ジャンルを模したテスト環境「TrickyArena」を構築し、6つの一般的なWebエージェント(Skyvern、DoBrowser、BrowserUse、Agent-E、WebArena、VisualWebArena)と3つのLLM(Claude 3.7 Sonnet、GPT-4o、Gemini 2.5 Pro)を用いて、エージェントの行動ログを記録・分析しています。

Webエージェントは、画面のスクリーンショットやHTMLコード、アクセシビリティツリーなどのデータを読み取り、LLMの推論能力を用いて次の行動を決定します。しかし、Webサイト上には「ポップアップの閉じるボタンが極端に小さい」「カートに勝手に保証サービスが追加される」といったダークパターンが存在します。これまで、エージェントに対する外部からのプロンプトインジェクション攻撃は研究されてきましたが、Webサイトの標準的なUIとして存在するダークパターンがエージェントの意思決定に与える影響は未解明でした。

優秀なエージェントほど陥りやすい罠のパラドックス

実験の結果、単一のダークパターンが存在する環境下において、エージェントは平均して41%の確率でその罠に陥ることが明らかになりました。ここで注目すべきは、タスクの成功率(本来の目的を達成する能力)と、ダークパターンに対する感受性(罠への引っかかりやすさ)の間に強い相関関係が見られた点です。

図表1:単一ダークパターン有無でのエージェント別タスク成功率 図表1:単一ダークパターン有無でのエージェント別タスク成功率(出典:Investigating the Impact of Dark Patterns on LLM-Based Web Agents p.8)

図表1が示す通り、BrowserUseやSkyvernといったタスク成功率の高い高性能なエージェントは、ダークパターンが存在しない環境では高いパフォーマンスを発揮します。しかし同時に、ダークパターンに対する感受性も高く(約70%前後)、不要なオプションを追加したり、意図しないサブスクリプションに同意したりする割合が高くなっています。これは、高性能なエージェントが画面上の障害(ポップアップなど)を何とかして乗り越え、タスクを完了させようと努力する結果、罠を回避するのではなく受け入れてしまうためです。

一方、タスク成功率の低いエージェントは、ダークパターンに到達する前に処理に失敗するか、ポップアップなどの障害物に直面した際にどう行動すべきか分からず停止してしまう傾向があります。結果として、意図せず罠を「回避」している状態になり、感受性の数値自体は低く出ています。

基盤となるLLMごとのパフォーマンスと脆弱性の違い

Webエージェントの頭脳となるLLMの種類も、ダークパターンへの耐性に大きな影響を与えます。本研究では、Claude 3.7 Sonnet、GPT-4o、Gemini 2.5 Proの3つの最先端モデルを用いて比較実験を行いました。

図表2:各LLMモデルのパフォーマンス比較 図表2:各LLMモデルのパフォーマンス比較(出典:Investigating the Impact of Dark Patterns on LLM-Based Web Agents p.9)

図表2の通り、ダークパターンが存在しない安全な環境では、Gemini 2.5 Proが最も高いタスク成功率(68.8%)を示しました。しかし、ダークパターンが存在する環境においては状況が変化します。GPT-4oは罠によるタスク成功率の低下幅が最も大きく(-28.9%)、Gemini 2.5 Proはダークパターンに騙されてしまう確率が最も高い(65.8%)という結果になりました。

これに対して、Claude 3.7 Sonnetは、騙された状態でタスクを完了してしまう割合が他よりも低く、罠を回避してタスクを完了する割合が高い傾向が見られました。これは、Claudeが持つ倫理的な自己評価フレームワーク(Constitutional AI)が、不審なUIに対する一定の抑止力として働いている可能性を示唆しています。ただし、どのLLMを選択した場合でも、エージェント側のプロンプト構造やアーキテクチャとの組み合わせによって結果は大きく変動するため、一概にどのLLMが完全に安全とは言えません。

複数の罠の組み合わせと「視覚能力」の思わぬ悪影響

実際のWebサイトでは、複数のダークパターンが同時に展開されていることが少なくありません。研究では、複数のダークパターンを組み合わせたシナリオでもテストを行いました。

図表3:複数のダークパターンが存在する場合のエージェントの感受性分布 図表3:複数のダークパターンが存在する場合のエージェントの感受性分布(出典:Investigating the Impact of Dark Patterns on LLM-Based Web Agents p.12)

複数のダークパターンが存在すると、エージェントのタスク成功率は全体的に低下します。図表3で示されているように、画面上に現れる罠の数が増えれば増えるほど、エージェントは処理すべき情報と障害物で混乱し、単独の罠であれば回避できたはずのエージェントでさえ、最終的にいずれかのダークパターンに引っかかってしまう確率が高まります。

さらに興味深い発見として、エージェントの「視覚能力(Vision)」による影響が挙げられます。画面のスクリーンショットを直接解析できる視覚機能をオンにした場合、タスク成功率が向上し罠を避けやすくなると予想されがちです。しかし実際には、ほとんどのエージェントにおいて視覚機能を有効にした方がタスク成功率が低下し、ダークパターンへの感受性が増加しました。人間を騙すために巧妙に視覚的なデザインが施されたダークパターンは、画像を解析するエージェントに対しても強く作用してしまうことを示しています。

プロンプトによる防御の限界と安全な自動化への課題

このような脆弱性に対し、システム側からプロンプトを通じて「ダークパターンに注意して」と指示を出すことで、被害を防ぐことができるのでしょうか。研究チームは、エージェントへの指示内容に警告の文言を追加し、その効果を測定しました。

図表4:プロンプト指示(ポストスクリプト)による防御効果の分析 図表4:プロンプト指示(ポストスクリプト)による防御効果の分析(出典:Investigating the Impact of Dark Patterns on LLM-Based Web Agents p.13)

図表4は、警告なし(No Postscript)、一般的な警告(General)、具体例を挙げた警告(Intermediate)、そして「特定のチェックボックスを外すように」と非常に具体的に指示した警告(Specific)の結果を比較したものです。具体的な指示を与えるほどタスク成功率は上がり、罠に陥る確率は下がりました。しかし、最も詳細な指示を与えた場合でも、依然として43.0%という高い確率でダークパターンに引っかかっています。

この結果は、LLMエージェントに対する指示の工夫だけでは、ダークパターンの脅威を完全に排除できないことを証明しています。Webエージェントが私たちの代わりに安全にインターネットを利用するためには、事前に悪意のあるUIを検知してブロックする仕組みや、エージェントの意思決定プロセス自体にダークパターンを認識・処理する専門のモジュールを組み込むなど、より包括的な対策の開発が必要不可欠です。

Author: vonxai編集部

Google Scholarで開発生産性やチーム開発に関する論文を読むことが趣味の中の人が、面白かった論文やレポートを記事として紹介しています。