請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

ChatGPT 回答程式問題錯誤率高達5成!為何用戶還是信?被什麼誤導了?

數位時代

更新於 2023年08月28日07:55 • 發布於 2023年08月28日07:55

美國普渡大學的研究發現,OpenAI 開發的人工智慧聊天機器人 ChatGPT 在回答軟體程式問題時,錯誤率超過一半,且能騙過三分之一的提問者。

該研究團隊分析了 ChatGPT 對 517 個 Stack Overflow 網站上的問題的回答,評估了其正確性、一致性、全面性和簡潔性。他們還對回答進行了語言和情感分析,並對 12 名志願參與者進行了問卷調查。

ChatGPT 回答軟體程式問題 52% 是亂講的,為何用戶還信?

這份研究報告的結論是:ChatGPT 的回答雖然語言風格良好,但其實有 52% 的回答是錯誤的,77% 是太過於冗長的。參與者只有在回答中的錯誤很明顯時,才能識別出來。否則,他們會被 ChatGPT 的友好、權威和細緻的語言風格所誤導。

他們的論文指出:「在我們的研究過程中,我們觀察到,只有當 ChatGPT 答案中的錯誤很明顯時,用戶才能識別出錯誤。但是,當錯誤不易驗證或需要用到外部IDE時,用戶往往沒有能力去發現錯誤,或低估答案中的錯誤程度。」

不過,論文中也指出,即使答案存在明顯錯誤,12 名參與者中仍有兩人仍然會選擇採用 ChatGPT 的答案。論文認為,這是因為 ChatGPT 具有令人愉快、權威的風格。

該論文解釋說:「從半結構化訪談中可以明顯看出,禮貌的語言、清晰的教科書風格的答案、全面性和答案的關聯性,將使得就算是完全錯誤的答案也能看起來是正確的。」

由於ChatGPT的答案常具有煽動性、暗示或成就的語言,例如:當然我可以幫助你、這肯定會解決它,讓用戶不自覺地選擇相信。

該論文的作者之一 Samia Kabir 表示:參與實驗的人更喜歡不正確且冗長的ChatGPT答案,而不是 Stack Overflow 的答案,這是由於多種原因造成的。

主要原因之一是ChatGPT的答案非常詳細。在很多情況下,如果參與者從冗長而詳細的答案中獲得有用的信息,他們並不介意回答的長度此外,積極的情緒和答案的禮貌是另外兩個原因 。」

「當參與者發現ChatGPT的答案很有洞察力時,他們就會忽略了答案中實際存在的錯誤。ChatGPT 自信地傳達有洞察力的訊息(即使訊息不正確)的方式贏得了用戶的信任,這使他們更喜歡錯誤的答案。」

延伸閱讀:20萬本盜版書都在「book 3」,AI巨頭從這偷數據!這是什麼?

Stack Overflow 是一個專門為程式設計師提供問答服務的網站,被認為是開發者獲取程式碼片段和解決問題的重要來源。然而,該網站近年來也面臨著流量下降、內容品質下降和使用者信任下降等問題。據 SimilarWeb 在 4 月份的一份報告顯示,自 2022 年 1 月以來,該網站每月流量下降了 6%,3 月份下降了 13.9%,而 ChatGPT 可能是導致其流量下降的原因之一。Stack Overflow 則否認了 SimilarWeb 的評估,並表示其流量受到搜尋演算法和 ChatGPT 興趣激增的影響。

作者觀察到,ChatGPT 的答案還更有煽動性——暗示成就或成就的語言——。「在很多情況下,我們觀察到 ChatGPT 插入了諸如『當然我可以幫助你』、『這肯定會解決它』等單詞和短語。」

在其他發現中,作者發現 ChatGPT 更容易犯概念錯誤,而不是事實錯誤。該論文發現:「由於 ChatGPT 無法理解所提出問題的潛在背景,許多答案都是不正確的。」

作者對 ChatGPT 答案和 Stack Overflow 答案的語言分析表明,機器人的反應「更正式,表達更多分析思維,展示更多實現目標的努力,並表現出更少的負面情緒。」他們的情緒分析得出的結論是:ChatGPT 的答案比 Stack Overflow 的答案表達了「更積極的情緒」。

OpenAI 在其 ChatGPT 網站上承認其軟體「可能會產生關於人、地點或事實的不精準資訊。」該公司暫未對普渡大學的研究作出回應。

延伸閱讀:AI幫你做廣告,成本省20倍!雀巢、可口可樂都擁抱AI,背後會有什麼風險?

本文授權轉載自:T客邦

延伸閱讀

【觀點】日本3大戰略狂追半導體王座!為何國家隊Rapidus 2奈米前途多舛?
台積電美國廠「連制服都找不到」,延宕全因管理混亂?工人嗆:英特爾資訊很完整
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多科技相關文章

01

不是只有AI!2025年國防新創資金暴增134%,矽谷大舉進軍台灣搶佔先機

創業小聚
02

日本H3火箭提前熄火 未能將衛星送入預定軌道

路透社
03

你不用,那我可以用嗎?新創槓上馬斯克,爭奪Twitter的「藍鳥商標」

創業小聚
04

把流量導進商圈!產官學跨界交流 《AI型商·智慧商圈座談會》助攻高雄商圈數位轉型

Knowing
05

瑞士借鏡澳洲作法 對兒少社群媒體禁令持開放態度

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...