ChatGPT 回答程式問題錯誤率高達5成！為何用戶還是信？被什麼誤導了？

美國普渡大學的研究發現，OpenAI 開發的人工智慧聊天機器人 ChatGPT 在回答軟體程式問題時，錯誤率超過一半，且能騙過三分之一的提問者。

該研究團隊分析了 ChatGPT 對 517 個 Stack Overflow 網站上的問題的回答，評估了其正確性、一致性、全面性和簡潔性。他們還對回答進行了語言和情感分析，並對 12 名志願參與者進行了問卷調查。

ChatGPT 回答軟體程式問題 52% 是亂講的，為何用戶還信？

這份研究報告的結論是：ChatGPT 的回答雖然語言風格良好，但其實有 52% 的回答是錯誤的，77% 是太過於冗長的。參與者只有在回答中的錯誤很明顯時，才能識別出來。否則，他們會被 ChatGPT 的友好、權威和細緻的語言風格所誤導。

他們的論文指出：「在我們的研究過程中，我們觀察到，只有當 ChatGPT 答案中的錯誤很明顯時，用戶才能識別出錯誤。但是，當錯誤不易驗證或需要用到外部IDE時，用戶往往沒有能力去發現錯誤，或低估答案中的錯誤程度。」

不過，論文中也指出，即使答案存在明顯錯誤，12 名參與者中仍有兩人仍然會選擇採用 ChatGPT 的答案。論文認為，這是因為 ChatGPT 具有令人愉快、權威的風格。

該論文解釋說：「從半結構化訪談中可以明顯看出，禮貌的語言、清晰的教科書風格的答案、全面性和答案的關聯性，將使得就算是完全錯誤的答案也能看起來是正確的。」

由於ChatGPT的答案常具有煽動性、暗示或成就的語言，例如：當然我可以幫助你、這肯定會解決它，讓用戶不自覺地選擇相信。

該論文的作者之一 Samia Kabir 表示：參與實驗的人更喜歡不正確且冗長的ChatGPT答案，而不是 Stack Overflow 的答案，這是由於多種原因造成的。

「 主要原因之一是ChatGPT的答案非常詳細。在很多情況下，如果參與者從冗長而詳細的答案中獲得有用的信息，他們並不介意回答的長度 。 此外，積極的情緒和答案的禮貌是另外兩個原因 。」

「當參與者發現ChatGPT的答案很有洞察力時，他們就會忽略了答案中實際存在的錯誤。ChatGPT 自信地傳達有洞察力的訊息（即使訊息不正確）的方式贏得了用戶的信任，這使他們更喜歡錯誤的答案。」

延伸閱讀：20萬本盜版書都在「book 3」，AI巨頭從這偷數據！這是什麼？

Stack Overflow 是一個專門為程式設計師提供問答服務的網站，被認為是開發者獲取程式碼片段和解決問題的重要來源。然而，該網站近年來也面臨著流量下降、內容品質下降和使用者信任下降等問題。據 SimilarWeb 在 4 月份的一份報告顯示，自 2022 年 1 月以來，該網站每月流量下降了 6%，3 月份下降了 13.9%，而 ChatGPT 可能是導致其流量下降的原因之一。Stack Overflow 則否認了 SimilarWeb 的評估，並表示其流量受到搜尋演算法和 ChatGPT 興趣激增的影響。

作者觀察到，ChatGPT 的答案還更有煽動性——暗示成就或成就的語言——。「在很多情況下，我們觀察到 ChatGPT 插入了諸如『當然我可以幫助你』、『這肯定會解決它』等單詞和短語。」

在其他發現中，作者發現 ChatGPT 更容易犯概念錯誤，而不是事實錯誤。該論文發現：「由於 ChatGPT 無法理解所提出問題的潛在背景，許多答案都是不正確的。」

作者對 ChatGPT 答案和 Stack Overflow 答案的語言分析表明，機器人的反應「更正式，表達更多分析思維，展示更多實現目標的努力，並表現出更少的負面情緒。」他們的情緒分析得出的結論是：ChatGPT 的答案比 Stack Overflow 的答案表達了「更積極的情緒」。

OpenAI 在其 ChatGPT 網站上承認其軟體「可能會產生關於人、地點或事實的不精準資訊。」該公司暫未對普渡大學的研究作出回應。

延伸閱讀：AI幫你做廣告，成本省20倍！雀巢、可口可樂都擁抱AI，背後會有什麼風險？

本文授權轉載自：T客邦

請更新您的瀏覽器

科技

數位時代

ChatGPT 回答軟體程式問題 52% 是亂講的，為何用戶還信？

更多科技相關文章

不是只有AI！2025年國防新創資金暴增134％，矽谷大舉進軍台灣搶佔先機

日本H3火箭提前熄火　未能將衛星送入預定軌道

你不用，那我可以用嗎？新創槓上馬斯克，爭奪Twitter的「藍鳥商標」

把流量導進商圈！產官學跨界交流《AI型商·智慧商圈座談會》助攻高雄商圈數位轉型

瑞士借鏡澳洲作法　對兒少社群媒體禁令持開放態度

請更新您的瀏覽器啟用Javascript

ChatGPT 回答程式問題錯誤率高達5成！為何用戶還是信？被什麼誤導了？

數位時代

ChatGPT 回答軟體程式問題 52% 是亂講的，為何用戶還信？

更多科技相關文章

不是只有AI！2025年國防新創資金暴增134％，矽谷大舉進軍台灣搶佔先機

日本H3火箭提前熄火 未能將衛星送入預定軌道

你不用，那我可以用嗎？新創槓上馬斯克，爭奪Twitter的「藍鳥商標」

把流量導進商圈！產官學跨界交流 《AI型商·智慧商圈座談會》助攻高雄商圈數位轉型

瑞士借鏡澳洲作法 對兒少社群媒體禁令持開放態度

請更新您的瀏覽器

日本H3火箭提前熄火　未能將衛星送入預定軌道

把流量導進商圈！產官學跨界交流《AI型商·智慧商圈座談會》助攻高雄商圈數位轉型

瑞士借鏡澳洲作法　對兒少社群媒體禁令持開放態度