科技

Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題

Unwire.hk
發布於 9小時前

隨著「生成式 AI」熱潮興起,編碼、內容生成、圖像辨識、資料概括等 AI 應用已進入企業與私人市場,「生成式 AI」的準確度、速度亦隨著 AI 模組不斷進化而愈見成熟,正如 AI 模型開發商 Anthropic 早前就宣佈更新他們旗下的人工智能 Claude 3.5 Sonnet,令 Claude 3.5 Sonnet 的效能進一步提升。早前亦有外國實況主拍片評測,從各方面試驗 Claude 3.5 Sonnet 的實際性能。

廣告(請繼續閱讀本文)

Sonnet 升級 能應對更複雜任務

隨著 Anthropic 公布升級 Claude 3.5 Sonnet,同時相關的運算能力評測亦出爐,例如,在 SWE-bench Verified 測試(一個用以測試大型學習機器處理真實軟體問題能力的基準測試)中,Claude 3.5 Sonnet 就取得卓越的成績,除了由舊一代的 33.4% 成績躍升至現時的 49%,Claude 3.5 Sonnet 更力壓其他如 chatGPT 等大眾常用的 AI 模型,成為在該項測試中得分最高、效能最高的「生成式 AI」模組。據 Anthropic 指,最新版本的 Claude 3.5 Sonnet 加強了推理及解難能力,令該模組能更輕易了解細微的指示與內容,生成更具創意的解決方案,更容易識別錯誤以至分析更複雜的數據;簡而言之,升級後的 Claude 3.5 Sonnet 能處理比過往更複雜的任務。

有外國 AI 專家 Matthew Berman 就分別以「編碼」、「字數計算」、「內容生成」、「邏輯推理」、「圖片描述」去實測新版 Claude 3.5 Sonnet 的效能。當中,在「編碼」方面,Berman 輸入簡單指令(prompt),分別要求 Claude 3.5 Sonnet 以 python (常用於 Web 應用程式、軟體開發、資料科學與機器學習的程式設計語言)編寫出經典遊戲「貪食蛇」及「俄羅斯方塊」,結果 Claude 3.5 Sonnet 能即時生成可實際使用的程式碼,雖然 Berman 發現 Claude 3.5 Sonnet 提供的「俄羅斯方塊」有 Bug,但在他要求 Claude 重新檢視後,Claude 亦能生成正確的「俄羅斯方塊」程式碼。

廣告(請繼續閱讀本文)

另外,在文字處理方面,Claude 3.5 Sonnet 亦能按 Berman 的要求,準確數算 AI 生成的文字答案所包含的字數,及按 Berman 的提示列出十句以「蘋果」作句未的語句,亦反映了升級後的 Claude 3.5 Sonnet 能更輕鬆處理複雜的任務。

至於 Claude 3.5 Sonnet 升級後獲提高的「邏輯推理」能力,Berman 提出了數個以往 AI 模組難以回答的問題,Claude 3.5 Sonnet 均能一一回應。例如,Claude 3.5 Sonnet 能正確比較題目內不同信封尺寸的不同,進一步回應 Berman 對於「信封是否符合要求」的提問,又如 Claude 3.5 Sonnet 能準確回答傳統大型語言模型(LMM)未能正確回應的「Strawberry 內有多少個字母 R」的提問,亦能比較及區分 9.9 與 9.1 兩個數字孰大孰小,更重要的是,從 Claude 3.5 Sonnet 的回應,我們能看出 Claude 3.5 Sonnet 逐步推論的強大邏輯推理與解難能力。

廣告(請繼續閱讀本文)

逐步解拆邏輯推論 解答語意不清及兩難問題

值得留意的是,升級後的 Claude 3.5 Sonnet 更著重邏輯推論,甚至能處理一些語意含糊的問題,例如,Berman 就以一條「室內有多少殺手」的問題,測試 Claude 3.5 Sonnet 能否理解「殺手」一詞的引伸含義,Claude 亦能逐步列出他的思考邏輯,並指出問題之中言意不清、概念含糊的地方,提出正確的答案;同樣地,Claude 3.5 Sonnet 在回應 Berman 有關是否犧牲一個人以解救人類滅絕的道德難題,Claude 同樣能指出問題牽涉的核心道德爭議,向提問者提供額外的道德框架作參考,以回應問題。由此得之,Claude 3.5 Sonnet 的邏輯推理能力遠遠比過往的 AI 強大。

最後,Berman 測試了 Claude 3.5 Sonnet 的圖片描述與解難能力,例如,Claude 能正確辨別及描述圖片內的動物羊駝、名人 Bill Gates 等內容;在提供一幅有關 iPhone 設定的圖片,Claude 3.5 Sonnet 甚至能直接描述圖內的詳細資料,如提出手機現存多少儲存用量、已用多少用量、甚麼程式佔儲存量最多,甚至乎能辨識那些應用程式已被卸載並上載至雲端。雖然,現時 Claude 3.5 Sonnet 尚未能解構 QR code 或處理更複雜細緻的圖像,但 Claude 3.5 Sonnet 的圖片描述能力仍然是非常優秀。

綜合而言,Matthew Berman 認為 Claude 3.5 Sonnet 升級後的能力獲大幅提升,尤其在編碼、邏輯推理、解難方面表現出色。此外,Anthropic 旗下另一模組 Claude 3.5 Haiku 亦同獲升級,雖然運算成本較低,但 Haiku 的性能可媲美過往最高效 AI 模組 Claude 3 Opus,在 SWE-bench Verified 測試中亦獲得 40.6% 的高分;現時在 Amazon Bedrock 上已能即時使用 Claude 3.5 Sonnet 及 Claude 3.5 Haiku,如欲了解更多詳情,可瀏覽以下網站(按此連結)。

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

更多 科技 相關文章

寧德時代董事長指 Tesla 電池將失敗 直指 Elon Musk 對電池並不熟悉
Unwire.hk
M4 Max GPU 效能可跟 RTX 4080 媲美
流動日報
傳 Lightning 至耳筒轉換器停售 於香港、美國等多個官網顯示售罄
Unwire.hk
Half-Life 3 遲遲不推出原因曝光 想不到值得開發成新作的主意
Unwire.hk
「魔物獵人20週年-狩獵大展-」大阪的魔物獵人俱樂部預售票將於將於11月21日(四)起開賣!一般票券12月20日(五)起!
Saiga NAK
Casio 推出全新手錶戒指 外觀儼如小型 G-Shock 可顯示時間兼計時
Unwire.hk
知名爆料人大戰!誰是誰非?Samsung Galaxy S25 系列可能有這幾隻顏色
Mobile Magazine
英國消費者組織指 Apple 違反競爭法 迫使 4 千萬用戶訂閱 iCloud 服務
Unwire.hk
寧德時代曾計劃於美國製造電池 但被美國政府拒絕
Unwire.hk
華為 Mate XT 有對手?TCL 華星展示自家研製三摺手機
Mobile Magazine
「人中之龍」2024粉絲見面會將於12月8日舉辦!參觀周邊商品自動販賣機及談話節目等
Saiga NAK
Spotify 出現 AI 生成偽冒音樂 騙取串流收入令多名歌手受害
Unwire.hk
手機界「防爆宗師」HONOR X9c 即將震撼登場!
Mobile Magazine
日本繪師不滿 X 內容被用於 AI 訓練 繪師福島鐵平:即日刪除所有創作內容
Unwire.hk
大欖隧道或採用分時段收費方案 私家車繁忙時段收 45 元於明年 5 月底生效
Unwire.hk
IG將取消追蹤Hashtag功能 以減少垃圾內容
am730
Kia 首次於亞太區展示 EV3 全新概念車 PV5 及 EV4 亮相
Unwire.hk
國泰科創馬拉松首度拓展至大灣區 香港團隊創意回收餐車奪冠
am730
傳 OpenAI 準備明年推出 AI 助理 可控制電腦自主行動
Unwire.hk
Google Docs 加入 AI 圖像生成 直接為文件生成插圖
Unwire.hk
Apple 承認 iCloud 備忘錄消失問題 指同步問題並非資料遺失,提供官方修復指引
Unwire.hk
Apple 或重啟自家電視計劃 進軍智能家居市場
流動日報
Pokémon TCG Pocket 將加入卡牌交易功能 明年新功能將容許玩家交換部分卡牌
Unwire.hk
AIRSIDE 與 Neuron 的「可持續發展」智能方案  以 AI 建設更符合現代需求的物業管理模式
Unwire.hk
速度與智慧兼備 Claude 3.5 Haiku 登陸 Amazon Bedrock
Unwire.hk
彭博:AirTag 2 明年推出 提升定位準確度與範圍
流動日報
「櫻坂46 4th YEAR ANNIVERSARY LIVE」將在11月23日(六)、11月24日(日)於「ABEMA PPV ONLINE LIVE」直播!門票販售中!
Saiga NAK
「PUBG MOBILE」迎接冰河時期!全新主題模式「Icemire Frontier」登場
Saiga NAK
2024 全球最常用密碼調查公佈 「123456」蟬聯榜首
Unwire.hk
堀江貴文監修的能量飲料「HOLIXER」試喝!名字跟回復道具「◯LIXIR」怎麼這麼像!?
Saiga NAK
東南亞時裝電商 Pomelo Fashion 用 AI 提供個人化體驗 採 Amazon Personalize 增 8% 總營收
Unwire.hk
Meta 預測 2025 年社交媒體五大趨勢,企業如何把握新機遇…
KONGGOK | 港角
日本投放 10 兆日元發展先進科技 半導體生產與 AI 產業將受惠
Unwire.hk
「Puyo Que Cafe 2025」將於2025年春季在「emo cafe」原宿店和大阪店舉辦!提出新菜單構想,就有機會贏得豐富獎品!
Saiga NAK
二千蚊有找?House of Marley Revolution + Uplift 暢玩黑膠唱盤喇叭組合
SPILL
小米 SU7 Ultra 挑戰速度極限 時速359.71公里刷新全球四門量產車紀錄
Unwire.hk
Claude 3.5 Sonnet 升級版登陸 AWS 以更強能力解拆複雜邏輯問題
Unwire.hk
Apple尋找功能可與第三方分享失物位置 15間航空公司將支援
am730