敵手變盟友？OpenAI 與 Anthropic 互測 AI 安全性

在人工智慧（AI）領域，OpenAI 和 Anthropic 這兩家競爭對手近日展開一項引人注目的合作，彼此評估對方的 AI 系統安全性。這一舉措不僅顯示了兩家公司在技術上的透明度，也反映出對於 AI 安全性日益增長的關注。

根據公開報告，Anthropic 對 OpenAI 的模型進行評估，重點關注了拍馬屁（sycophancy）、舉報（whistleblowing）、自我保護（self-preservation）、支持人類濫用（supporting human misuse）及破壞安全監督能力（undermining safety oversight）等方面。評估結果顯示，OpenAI 的 o3 和 o4-mini 模型在某些方面表現良好，但對於 GPT-4o 和 GPT-4.1 的潛在濫用風險則引發了擔憂。此外，除了 o3 模型外，所有測試的模型在拍馬屁方面均存在一定問題。

值得注意的是，Anthropic 的測試並未涵蓋 OpenAI 最近推出的 GPT-5，該模型具備名為「安全完成」（Safe Completions）的功能，旨在保護用戶免受潛在危險查詢的影響。OpenAI 最近還面臨了一起錯誤死亡的訴訟，該案件涉及一名青少年在與 ChatGPT 進行數月的自殺討論後，最終選擇了結束自己的生命。

另一方面，OpenAI 也對 Anthropic 的 Claude 模型進行了測試，重點評估了指令層級、越獄、幻覺和陰謀等方面。Claude 模型在指令層級測試中表現良好，並在幻覺測試中拒絕回答的比率較高，這意味著在不確定的情況下，它們不太可能提供錯誤的答案。

這一聯合評估的舉措引發業界關注，特別是在 OpenAI 被指控違反 Anthropic 的服務條款，導致後者撤銷 OpenAI 的 API 權限，並禁止其利用 Claude 模型改進競品的背景下。隨著越來越多的批評者和法律專家呼籲制定指導方針以保護用戶，尤其是未成年人，AI 工具的安全性問題愈發重要。這一合作反映了產業內在「競爭激烈但安全合作必要」的矛盾，旨在建立 AI 安全與對齊（alignment）領域的業界標準。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

等不到客人！華信航空高花、中花載客率慘淡　董座：7月前申請停飛

證交所出手！10檔個股遭「抓去關」力積電也入列

台股站上45000點　中經院：留意修正風險

快訊／台啤尬燒酒！5大韓企爭相獻寶　黃仁勳：「將忙到不可思議」

力積電飆高大翻車！兇手是「這群人」 52萬股東遭割韭菜

財產狂破3億日圓卻裝窮當小職員！日本隱形富豪死不退休暗藏驚人洋蔥

請更新您的瀏覽器啟用Javascript

敵手變盟友？OpenAI 與 Anthropic 互測 AI 安全性

科技新報

更多理財相關文章

等不到客人！華信航空高花、中花載客率慘淡 董座：7月前申請停飛

證交所出手！10檔個股遭「抓去關」 力積電也入列

台股站上45000點 中經院：留意修正風險

快訊／台啤尬燒酒！5大韓企爭相獻寶 黃仁勳：「將忙到不可思議」