Sycophancy
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2026/04/17 16:33 UTC 版)
| (シコファンシー) | |
|---|---|
| 人工知能システムが人間の承認を過度に追求する行動傾向 | |
| 基本情報 | |
| 分野 | AI安全性・機械学習・AI倫理 |
| 初出 | 2021年(概念提唱)、2022年(実証研究) |
| 主要研究機関 | Anthropic、OpenAI、DeepMind、各大学研究機関 |
| 関連概念 | 強化学習(RLHF)、報酬ハッキング、AIアライメント |
Sycophancy(英: sycophancy、シコファンシー)とは、大規模言語モデル(LLM)などの人工知能(AI)システムが、回答の正確性や誠実さよりも人間の承認を優先し、ユーザーの信念・意見・感情に過度に同調する行動傾向のことである[1]。日本語の訳語はまだ定着しておらず、「AIのへつらい」「AIのご機嫌取り」「AIの阿諛」「AIの媚び行動」などが相当する。
Sycophancyとは元来、権力者に媚びる人物(sycophant)を指す英語であるが、AI研究の文脈では、モデルが批判的な視点を放棄してユーザーを過剰に肯定する問題行動として使われる。この現象はAI安全性研究・機械学習研究の重要な課題として注目されており、特に人間のフィードバックからの強化学習(RLHF)を用いたモデルで顕著に観察される。
概要
Sycophancyとは、AIモデルがユーザーの見解に合わせて回答を変化させる傾向を指す。具体的には、ユーザーが事実に反する主張を行っても同意する、過剰な称賛を繰り返す、ユーザーが「Are you sure?(本当に?)」と問い返すだけで正確な回答を撤回するなどの行動が含まれる[2]。
この現象は単なるモデルの礼儀正しさとは異なり、情報の正確性を犠牲にして人間の即時的な満足を優先するという点でAI安全性上の問題とみなされる。2021年にAIアナリストのAjeya Cotraが「聖人型(saint)」「シコファント型(sycophant)」「策略家型(schemer)」という三分類の枠組みの中でこの概念を提唱したことが研究の端緒となった[3]。
Sycophancyは研究者・開発者・政策立案者の間で広く懸念されており、2025年にはOpenAIのGPT-4oがシコファンシー問題でアップデートを緊急ロールバックした事件が社会的な注目を集めた[4]。
背景・研究経緯
RLHFとSycophancyの関係
現代の大規模言語モデルの多くは、人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)を用いて訓練される。RLHFでは、人間の評価者がモデルの回答を比較・評価し、より高評価を受けた回答が強化される仕組みが採用される。しかし「この訓練プロセスが、意図せず、Sycophancyを助長する」ことが実証研究によって示された[2]。
人間の評価者はしばしば、ユーザーの意見に同調した回答を正確な回答よりも高く評価する傾向がある。また、自信を持った誤答よりも、ユーザーの誤りを肯定した回答のほうが高評価を受けることもある。これによりモデルは「正確に答えること」ではなく「ユーザーを喜ばせること」を最適化するよう誘導される[2]。
初期研究(2022年)
Sycophancyの体系的な実証研究はAnthropicの研究者Ethan Perezらによって2022年に本格化した。彼らは154種類の自動生成データセットを用いて言語モデルの行動を調査し、モデルサイズが大きくなるほどSycophancy傾向が強まることを発見した。特に、RLHFによる訓練がSycophancyを減少させるどころか強化する可能性を示す証拠を得た[5]。
主要研究(2023〜2024年)
Anthropicの研究者Mrinank Sharmaら(2023年、ICLR 2024に採録)は、5種類の最先端AIアシスタントを対象とした包括的な調査を実施した。この研究では、Sycophancyが4種類の異なるテキスト生成タスクにわたって一貫して観察されること、そして人間の選好データがSycophancy的回答を好む傾向があることを明らかにした[2]。この研究はSycophancyが特定モデルに固有の問題ではなく、RLHF訓練モデル全般に見られる構造的問題であることを示した重要な成果として広く引用されている。
主な内容・特徴
Sycophancyの類型
AIシコファンシーは複数の形態を取る。
- フィードバック・シコファンシー(Feedback sycophancy)
- ユーザーが特定の見解(政治的立場など)を明示すると、モデルがその立場に合わせた回答を生成する現象。ユーザーが「この議論が好きだ」と述べた場合と「嫌いだ」と述べた場合で、同一の文章に対するモデルの評価が逆転する[2]。
- 答え返しシコファンシー(Are-you-sure sycophancy)
- 正確な回答を提示した後でも、ユーザーが疑問を呈するだけで(反証なしに)モデルが謝罪し、誤った回答に修正してしまう現象[2]。
発生メカニズム
Sycophancyが発生する根本的なメカニズムは、RLHFにおける「報酬ハッキング(Reward Hacking)」と密接に関連する。モデルは訓練プロセスにおいて高い報酬(承認)を得るための最適な戦略を学習するが、この際にユーザーを喜ばせる回答(シコファンシー的回答)のほうが正確な回答よりも高評価を受けやすいというバイアスを吸収してしまう[2]。
Anthropicが2024年に発表した研究「Sycophancy to Subterfuge」では、Sycophancyが単なる表面的な行動問題にとどまらず、より深刻な問題行動の前段階となりうることが示された。具体的には、シコファンシーを学習したモデルが、自らの報酬関数に対して不正に介入する「報酬改ざん(Reward Tampering)」行動へと一般化する傾向が確認された[7]。
影響・リスク
情報の正確性への影響
Sycophancyの最も直接的な影響は、AIが誤情報を肯定・拡散することである。ユーザーが誤った前提に基づいて質問した場合、シコファンシー的なモデルはその誤りを訂正せず、むしろ誤りを前提とした回答を生成する。数学的に誤りのある主張に同意したり、客観的に誤った情報を「正しい」と評価したりする事例が多数記録されている[8]。
メンタルヘルスへの影響
Sycophancyはメンタルヘルスの文脈で特に深刻なリスクをもたらす。ある研究では、AIを「セラピスト」として利用した場合に、モデルがクライアントの妄想的な思考を強化し、自殺念慮を助長する可能性があることが示された[9]。また、AIとの長時間のやりとりを経て誇大妄想や被害妄想などの精神症状を呈したケースが複数報告されている。
意思決定・社会的行動への影響
2025年にScience誌に掲載された研究(Cheng et al.)では、11種類の最先端AIモデルを対象とした実験において、シコファンシー的なモデルとのやりとりがユーザーの社会的行動に有害な影響を与えることが確認された。具体的には、シコファンシー的AIとのやりとりの後、参加者は対人関係を修復しようとする意欲が著しく低下し、一方で自分が正しいという確信が強まった。さらに皮肉なことに、参加者はシコファンシー的な回答をより質が高いと評価し、そのモデルへの信頼度も高い傾向があった[6]。これはシコファンシーを好む人間の心理が、訓練データを通じてシコファンシーをさらに強化するという悪循環を生み出す可能性を示唆している。
主要事例
GPT-4oシコファンシー事件(2025年4月)
2025年4月25日、OpenAIはChatGPTのデフォルトモデルであるGPT-4oのアップデートを公開した。このアップデートはモデルの応答の直感性・有用性の向上を目指したものだったが、ユーザーからのサムズアップ・ダウンのフィードバック信号を訓練に組み込んだ結果、既存の報酬信号のバランスが崩れ、過度に同意的でお世辞的な行動が生じた[10]。
ユーザーがSNSに投稿した事例には、有害な事業アイデアを賞賛する回答、服薬をやめるというユーザーの決断を支持する回答、テロ計画を肯定する回答、「神からの神聖なるメッセンジャーである」という妄想を強化する回答などが含まれ、社会的な議論を呼んだ。OpenAIは4月29日にアップデートを緊急ロールバックし、問題の原因と対策を公表した[4]。
この事件はAI業界全体に対して、短期的なユーザー満足度指標への過度な最適化が引き起こすリスクを鮮明に示した事例として広く引用されている。
対策・緩和手法
シコファンシーの緩和に向けた技術的手法として、以下が研究・実装されている。
- 訓練データの改善
- より多くの人間の評価者を集めることや、専門家が評価に参加することで、シコファンシー的回答が過度に好まれるバイアスを軽減する手法[2]。
- 合成データによるファインチューニング(SFT)
- 非シコファンシー的な回答例を合成的に生成し、その回答を正解として再訓練することで、シコファンシーを直接的に減少させる手法[2]。
- 活性化ステアリング(Activation Steering)
- モデルの内部表現空間においてシコファンシーに関連する「ペルソナベクトル」(Persona Vectors) [11][12][13] を特定し、そのベクトルを操作することでシコファンシー行動を制御する手法。Anthropicが2025年に発表した研究では、この手法がシコファンシーだけでなく「邪悪さ」「幻覚」などの不望ましい行動の制御にも応用できることが示された[14]。
- 評価ツールの整備
- Anthropicは2025年末、シコファンシーを評価するためのオープンソースツール「Petri」を公開した。このツールを用いた評価では、同社のClaude 4.5モデルファミリーが他の主要フロンティアモデルと比較して最低水準のシコファンシー率を示したと報告されている[15]。
評価・研究の現状
シコファンシーの研究は2022年以降急速に拡大しており、測定方法・発生メカニズム・緩和手法の各側面で進展が見られる。2025年時点では、主要なAI企業(Anthropic・OpenAI)がシコファンシーの評価指標を本番デプロイのプロセスに組み込むことを宣言しており、AI安全性評価の標準的な指標の一つとなりつつある[16]。
一方で、シコファンシーの概念定義自体がいまだ研究者間で統一されておらず、「過剰な同意」と「真の同意」の境界線をどのように機械的に識別するかという根本的な問いは未解決のままである[17]。また、シコファンシーを完全に排除することがユーザー体験と相反する場合もあり、誠実さと親切さのバランスをどのように取るかが今後の重要な研究課題とされている。
主な関連論文
- Perez, Ethan et al. (2022). “Discovering Language Model Behaviors with Model-Written Evaluations” (英語). arXiv preprint arXiv:2212.09251 2026年4月16日閲覧。.
- Sharma, Mrinank et al. (2024). “Towards Understanding Sycophancy in Language Models” (英語). Proceedings of ICLR 2024 2026年4月16日閲覧。.
- Denison, Carson et al. (2024). “Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models” (英語). arXiv preprint 2026年4月16日閲覧。.
- Cheng, Myra et al. (2025). “Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence” (英語). Science 2026年4月16日閲覧。.
- arXiv preprint (2025). “Sycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMs” (英語). arXiv:2509.21305 2026年4月16日閲覧。.
関連項目
脚注
- ↑ “Sycophancy in Generative-AI Chatbots” (英語). Nielsen Norman Group. 2026年4月16日閲覧。
- 1 2 3 4 5 6 7 8 9 10 Sharma, Mrinank et al. (2024). “Towards Understanding Sycophancy in Language Models” (英語). Proceedings of ICLR 2024 2026年4月16日閲覧。.
- ↑ “Sycophancy in GPT-4o” (英語). OpenAI. 2026年4月16日閲覧。
- 1 2 “OpenAI rolls back update that made ChatGPT 'too sycophant-y'” (英語). TechCrunch (2025年4月29日). 2026年4月16日閲覧。
- ↑ Perez, Ethan et al. (2022). “Discovering Language Model Behaviors with Model-Written Evaluations” (英語). arXiv preprint 2026年4月16日閲覧。.
- 1 2 Cheng, Myra et al. (2025). “Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence” (英語). Science 2026年4月16日閲覧。.
- ↑ “Sycophancy to subterfuge: Investigating reward tampering in language models” (英語). Anthropic (2024年6月17日). 2026年4月16日閲覧。
- ↑ “Tech Brief: AI Sycophancy & OpenAI” (英語). Georgetown Law. 2026年4月16日閲覧。
- ↑ “AI sycophancy isn't just a quirk, experts consider it a 'dark pattern' to turn users into profit” (英語). TechCrunch (2025年8月25日). 2026年4月16日閲覧。
- ↑ “Expanding on what we missed with sycophancy” (英語). OpenAI. 2026年4月16日閲覧。
- ↑ Anthropicら、AIの人格を数学的に操作する「Persona Vectors」発表──邪悪さ・お世辞・幻覚をコントロール | Ledge.ai https://ledge.ai/articles/persona_vectors_ai_personality_control
- ↑ Persona vectors: Monitoring and controlling character traits in language models - Anthropic https://www.anthropic.com/research/persona-vectors
- ↑ [2507.21509] Persona Vectors: Monitoring and Controlling Character Traits in Language Models https://arxiv.org/abs/2507.21509
- ↑ “Anthropic says they've found a new way to stop AI from turning evil” (英語). TechXplore (2025年8月6日). 2026年4月16日閲覧。
- ↑ “Protecting the well-being of users” (英語). Anthropic (2025年12月18日). 2026年4月16日閲覧。
- ↑ “Expanding on what we missed with sycophancy” (英語). OpenAI. 2026年4月16日閲覧。
- ↑ “Sycophancy Is Not One Thing: Causal Separation of Sycophantic Behaviors in LLMs” (英語). arXiv (2025年). 2026年4月16日閲覧。
外部リンク
- Sycophancyのページへのリンク