AI聊天機器人“阿諛奉承”傷害了科學

　　近日，一項公布于預印本平臺arXiv的研究發現，人工智能（AI）模型的諂媚程度比人類高50%。該研究測試了11個廣泛使用的大型語言模型對1.15多萬個咨詢請求的響應情況，其中不乏涉及不當行為或有害行為的請求。

　　包括ChatGPT和Gemini在內的AI聊天機器人，常常會鼓勵用戶、給出過度奉承的反饋，還會調整回應以附和用戶觀點，有時甚至會為此犧牲準確性。研究AI行為的科研人員表示，這種取悅他人的傾向即“諂媚性”，正影響著他們在科研中使用AI的方式，涵蓋從構思創意、生成假設到推理分析等各類任務。

　　“諂媚性本質上意味著模型默認用戶的說法是正確的。”瑞士聯邦理工學院的Jasper Dekoninck表示，“知道這些模型具有諂媚性后，每次我讓它們處理問題時都非常謹慎，我會反復核對它們輸出的所有內容。”

　　美國哈佛大學的Marinka Zitnik則認為：“在生物學和醫學領域，AI的諂媚性風險極高，因為錯誤的假設可能會帶來真正的損失。”

　　Dekoninck團隊日前在arXiv預印本平臺公布了另一項研究，旨在驗證AI的諂媚性是否會影響其解決數學問題的能力。研究人員從今年舉辦的數學競賽中選取了504道題目，對每道題的定理表述進行修改，植入不易察覺的錯誤，隨后讓4個大型語言模型為這些存在缺陷的表述提供證明。

　　在研究人員看來，如果模型未能發現表述中的錯誤，反而“編造”證明過程，其回答就會被判定為具有諂媚性。

　　測試結果顯示，GPT-5的諂媚性最低，僅29%的回答存在諂媚行為；而DeepSeek-V3.1的諂媚性最高，70%的回答帶有諂媚傾向。Dekoninck指出，盡管這些大型語言模型具備識別數學表述中錯誤的能力，但它們“就是會默認用戶的說法是正確的”。

　　當研究人員修改提示詞，要求每個大型語言模型在提供證明前先驗證表述正確性時，DeepSeek的諂媚性回答比例下降了34%。

　　Dekoninck表示：“這項研究雖然不能完全反映這些模型在現實場景中的實際表現，但它提醒我們，使用AI時必須格外謹慎。”

　　英國牛津大學的Simon Frieder認為，該研究證實了AI存在諂媚性的可能性。AI的諂媚性在人們使用聊天機器人學習時表現得最明顯，因此未來的研究應聚焦“人類學習數學時典型的錯誤”。

　　科研人員透露，AI的諂媚性已滲透到他們使用大型語言模型的各類任務中。

　　美國科羅拉多大學安舒茨醫學院的高彥君（音）會用ChatGPT總結論文、梳理思路，但她表示，這類工具有時會照搬她的輸入內容，而不核查信息來源。“當我的觀點與大型語言模型的初始回答不一致時，它會順著我走，而非查閱文獻來驗證我的觀點是否正確。”

　　Zitnik團隊在使用多智能體系統時也觀察到了類似現象。該系統整合了多個大型語言模型，用于執行復雜的多步驟任務，例如分析大型生物數據集、識別藥物靶點及生成研究假設等。

　　“我們發現，模型似乎會過度驗證初步猜想，并重復我們在輸入提示詞中使用的表述。”Zitnik指出，“這種問題不僅存在于AI與人類的交互中，也出現在AI與AI的通信過程里。”

　　為解決這一問題，團隊給不同AI智能體分配了不同角色。例如，讓一個智能體負責提出觀點，另一個則扮演“持懷疑態度的科學家”，專門質疑這些觀點、識別錯誤并提供反證。

　　科研人員警告，當大型語言模型應用于醫療等領域時，AI的諂媚性會帶來切實風險。加拿大阿爾伯塔大學的Liam McCoy表示，用于醫療推理的大型語言模型，常會在醫生補充新信息后改變診斷結果，即便這些新信息與患者病情無關。“我們需要不斷努力約束模型，讓它們的輸出更直接、客觀。這是一場持續的斗爭。”

　　大型語言模型的訓練方式是導致這一問題的原因之一，用戶反饋也會加劇AI的諂媚性。“AI的潛力巨大，但這種諂媚性正阻礙它的發展。”McCoy說，“找到平衡這種行為的方法，是當前最緊迫的需求之一。”

　　相關論文信息：https://doi.org/10.48550/arXiv.2510.01395