請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Claude Opus 4.5 被偷偷「降智」?一個網站告訴你 AI 模型當前可靠性

流動日報

更新於 10小時前 • 發布於 10小時前 • NewMobileLife

近日很多盛讚 Claude Code的言論,不過作為長期用戶,這幾天 Opus 4.5 有明顯「降智」問題。如何得知一個模型有沒有被降智?長期用戶會感受得到,一些預期它能 1 Take 完成的工作,卻要做 2-3 次才達標。

很主觀?對!不過,給大家介紹一個名為Stupid-Meter 的網站。 它會分析當前各大主流模型的可靠度,而且不停更新。

執筆之時,可靠度最高是 SONNET 4 (不是 4.5),而 GPT 5.2 排第二,至於 Opus 4.5 只排第 5。至於 Gemini 3 Pro Preview 則排第10。我不太肯定 SONNET 4 是否真的比 4.5 穩定,但筆者認為近期GPT 5.2 Codex(High)比Opus 4.5 可靠。至於Gemini 3 Pro 只排第 10 也很合理,誰用誰知道。

AI 模型有時會因為用戶人數太多,需求太高而降低其輸出質素。當然,也有可能因為一些 bug 或故障,影響輸出表現。因此,經常查看一下 Stupid-Meter,再決定用什麼模型是一個良好的習慣。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

ChatGPT Health 正式發佈 整合你的 Apple Health 數據提供意見

流動日報

分析指 Grok 於 X 平台每小時生成 6,700 張意識不良照片

流動日報

Dell 坦言消費者對 AI 電腦缺乏興趣

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...