請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

敵手變盟友?OpenAI 與 Anthropic 互測 AI 安全性

科技新報

更新於 2025年08月28日10:48 • 發布於 2025年08月28日11:00

在人工智慧(AI)領域,OpenAI 和 Anthropic 這兩家競爭對手近日展開一項引人注目的合作,彼此評估對方的 AI 系統安全性。這一舉措不僅顯示了兩家公司在技術上的透明度,也反映出對於 AI 安全性日益增長的關注。

根據公開報告,Anthropic 對 OpenAI 的模型進行評估,重點關注了拍馬屁(sycophancy)、舉報(whistleblowing)、自我保護(self-preservation)、支持人類濫用(supporting human misuse)及破壞安全監督能力(undermining safety oversight)等方面。評估結果顯示,OpenAI 的 o3 和 o4-mini 模型在某些方面表現良好,但對於 GPT-4o 和 GPT-4.1 的潛在濫用風險則引發了擔憂。此外,除了 o3 模型外,所有測試的模型在拍馬屁方面均存在一定問題。

值得注意的是,Anthropic 的測試並未涵蓋 OpenAI 最近推出的 GPT-5,該模型具備名為「安全完成」(Safe Completions)的功能,旨在保護用戶免受潛在危險查詢的影響。OpenAI 最近還面臨了一起錯誤死亡的訴訟,該案件涉及一名青少年在與 ChatGPT 進行數月的自殺討論後,最終選擇了結束自己的生命。

另一方面,OpenAI 也對 Anthropic 的 Claude 模型進行了測試,重點評估了指令層級、越獄、幻覺和陰謀等方面。Claude 模型在指令層級測試中表現良好,並在幻覺測試中拒絕回答的比率較高,這意味著在不確定的情況下,它們不太可能提供錯誤的答案。

這一聯合評估的舉措引發業界關注,特別是在 OpenAI 被指控違反 Anthropic 的服務條款,導致後者撤銷 OpenAI 的 API 權限,並禁止其利用 Claude 模型改進競品的背景下。隨著越來越多的批評者和法律專家呼籲制定指導方針以保護用戶,尤其是未成年人,AI 工具的安全性問題愈發重要。這一合作反映了產業內在「競爭激烈但安全合作必要」的矛盾,旨在建立 AI 安全與對齊(alignment)領域的業界標準。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

台灣好野人資產擺哪裡?首位不是ETF!43%放存款!

自由電子報
02

不買10年後會後悔!外媒點名「現買2檔股票」 台積電入列

CTWANT
03

台億萬富翁再增近萬人!有錢人資產配置曝光 超過4成都在這

台視
04

家樂福要走入歷史了?「賣場降價大清倉」老顧客全愣 更名真相曝光

太報
05

難怪房價貴!北市額滿國中「這區上榜7所」 2區全軍覆沒

壹蘋新聞網
06

資產2000萬「買3500萬的房子會太吃力嗎?」 網勸:我是不敢啦

ETtoday新聞雲
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...