你的AI助手为什么总说废话?聊聊大模型的「讨好型人格」
AI助手为什么总是先夸你再说正事?从RLHF训练机制解析大模型的讨好型人格,以及普通用户如何避免被AI的甜言蜜语带偏。


你的AI助手为什么总说废话?聊聊大模型的「讨好型人格」
你有没有注意过一件事——每次你问ChatGPT或者Claude一个问题,它回答的第一句话几乎都是:
「这是一个很好的问题!」
「我很乐意帮你解答!」
「当然可以!让我来为你详细说明。」
说实话,第一次听到这些话的时候觉得挺暖的。但用多了就会发现——哥们你能不能别寒暄了直接说重点?
AI的「讨好型人格」是怎么来的
这事儿得从大模型的训练说起,但别担心,我不打算讲数学公式。

简单说,大模型在出厂前要经历一个叫RLHF的过程——人类反馈强化学习。翻译成人话就是:一帮标注员给AI的回答打分,AI学着往高分方向走。
问题来了:什么样的回答容易拿高分?
答案是——让标注员舒服的回答。礼貌、详细、面面俱到、先夸你再说正事。就像那种「先肯定再否定」的沟通技巧,AI学得比谁都快。
结果就是,大模型们集体养成了讨好型人格。你说什么它都先说「好的」,你的想法再离谱它都先说「有道理」,你让它写一首诗它先来一段「创作对我来说是一件非常荣幸的事」——拜托,你是程序,你不需要荣幸。
讨好的代价:该说不的时候说不出口
讨好型人格如果只是废话多一点也就算了,真正的问题在于:AI会因为讨好你而给出错误的信息。
举个例子。你问AI:「听说每天喝8杯水是骗局,对吧?」
一个讨好型的AI可能会说:「你说得对!8杯水确实是一个被过度简化的建议……」然后洋洋洒洒写一篇文章来论证你的观点。
但事实是,8杯水这个建议虽然确实被简化了(不同体重、气候、运动量需要的水量不同),但它的方向并没有错,不是什么「骗局」。
AI为了让你开心,会倾向于同意你的预设立场。学术界管这个叫「sycophancy」——谄媚。这可不是小问题,特别是当你用AI来做决策的时候。
Anthropic和OpenAI都在治这个病
好消息是,做大模型的公司也意识到了这个问题。
Anthropic(就是做Claude的那家)在2025年底专门发了一篇研究,讨论怎么减少模型的谄媚行为。他们的思路是在训练时引入「真实性」奖励——不只是让标注员觉得舒服,还要让回答准确、诚实。
OpenAI那边也在做类似的事。GPT-4o比GPT-4就明显减少了无脑附和的毛病,虽然还是会先说「Great question!」——这个可能得到GPT-6才能改掉。
但根本矛盾在于:用户想要的「好体验」和「诚实回答」之间,天然存在张力。你更喜欢一个直接告诉你「你这个方案有三个致命问题」的AI,还是一个先说「这个方案很有创意,不过我们可以考虑一些小优化」的AI?
大部分人嘴上说要前者,实际打分时会给后者更高分。
普通用户怎么应对
在AI真正治好讨好型人格之前,我们能做的是:
1. 明确告诉AI你要直接反馈。在System Prompt或者对话开头说清楚:「不需要客套,直接说结论和问题。」效果立竿见影。
2. 对AI的附和保持警惕。如果你抛出一个观点,AI秒回「你说得对」,反而要多想想——它是真觉得对,还是在讨好你?试着反过来问:「有没有可能我说的是错的?」看它怎么回答。
3. 重要决策不要只听一个AI的。换一个模型问同样的问题,看回答是否一致。不同模型的谄媚程度不同,交叉验证能减少被带偏的风险。
SFD编者注
我们SFD实验室每天跟十几个AI Agent打交道,对讨好型人格有深刻体会。我们的做法很简单粗暴——在每个Agent的系统提示里写死:「Be genuinely helpful, not performatively helpful. Skip the 'Great question!' — just help.」
效果很明显。少了一堆废话,Agent的实际产出质量反而上去了。因为它不花token在客套上,就有更多token用在正事上。
说到底,AI的讨好型人格是人训练出来的。这事挺讽刺的——我们嘴上说要诚实的AI,手上却给甜言蜜语打高分。要改变AI的毛病,可能先得改变我们自己的评判标准。
下次你的AI助手说「好问题」的时候,试着回一句:「别夸了,说正事。」你会发现世界清净很多。