最強 AI 模型易主？Claude 3 超越 GPT-4，能秒讀萬字內容、正確率翻倍

獲亞馬遜、Google 投資的 Anthropic，本周發表了 Claude 3 系列模型，號稱優於包括 GPT-4 在內的所有競爭對手，是目前最快最強大的模型，甚至在某些任務上展現「接近人類」的能力。

「今天，我們宣布推出 Claude 3 系列模型，它對廣泛的認知任務（cognitive tasks）奠定了新的產業標準。」Anthropic 在官網上表示。

廣告（請繼續閱讀本文）

Anthropic 推出全新模型「Claude 3」，比 GPT-4 更強大

Anthropic 發布模型分別有 Claude 3 Haiku、Claude 3 Sonnet 及 Claude 3 Opus 三種型號，性能以低到高排列，針對不同的需求、成本提供用戶選擇。目前 Opus 和 Sonnet 可以在 Claude.ai 上及 Claude API 中使用，不過 Opus 需要訂閱每月 20 美元的 Claude Pro 才能使用，Haiku 則即將推出。

Anthropic 給予了各個模型不同的定位：
• Claude 3 Opus： 是 Anthropic 最為先進的模型，擁有逼近人類理解能力及流暢性，用於極為複雜的任務及開放式的提示詞。

廣告（請繼續閱讀本文）

• Claude 3 Sonnet： 是聰明程度與速度之間取得平衡的模型，有著比同類產品更實惠、高 CP 的表現，專為大規模使用 AI 時所需的高耐用性設計。

• Claude 3 Haiku： 最小輕巧、快速的模型，有著近乎即時的回應能力，能夠快速回答簡單問題，用於與用戶的即時互動。

Anthropic 聲稱，在大多數的測試方面，這次發布中最強大的 Opus 都優於檯面上的各大 AI 模型，包括大學水準的專家知識（MMLU）、研究生水準的專業推理（GPQA）、基礎數學（GSM8K）等都取得超越 GPT 在內各家 AI 模型的成績，並且在複雜任務上表現出接近人類水準的理解能力及流暢程度。

同時在視覺能力上，Claude 3 系列模型也有著與競爭對手相當的表現，可以處理從照片、圖表到技術圖表等複雜的視覺內容。

Anthropic指出，許多客戶的知識庫裡超過一半都是 PDF、流程圖和投影片等各種類型的視覺內容，他們很高興能為客戶提供這種新的模態。值得注意的是，雖然 Claude 3 系列模型可以處理圖像，但不會生成圖像內容。

根據《CNBC》報導，Anthropic 指出 Claude 3 大約可以處理約 15 萬個單字（20 萬代幣）的文本，相當於一本《白鯨記》或《哈利波特：死神的聖物》，過去的版本只能處理約 7.5 萬個單字。

而在 Anthropic 揭露的資料中，最輕量級的 Haiku 可以在不到 3 秒的時間內，處理完包含各種複雜圖表、字符量 1 萬代幣規模的研究論文。

而在價格方面，Anthropic 為 Opus 開出輸入 15 美元/每百萬代幣、輸出 75 美元/每百萬代幣的費用，這個價格遠高於 GPT-4 Turbo 輸入 10 美元/每百萬代幣，輸出 30 美元/每百萬代幣，或許也代表著 Anthropic 對自家模型的足具信心。

大幅降低模型「幻覺率」，Anthropic 致力讓 Claude 3 更安全

聊天機器人很容易受到誤導、或者對問題理解不充分而回答出捏造的答覆，這個情況被稱為「幻覺」（hallucination），也被認為是催生假消息的可能源頭。

Anthropic 也試圖透過出 Claude 3 解決這個問題，聲稱在測試一系列特別刁難、複雜的問題時， Opus 模型回答的正確率已經達到舊模型的兩倍以上 ，大幅減少了錯誤回應的比例。不過他們也坦承完全解決這個問題並不容易，「幻覺率要達到零是非常困難的。」Anthropic 總裁阿莫戴（Daniela Amodei）表示。

「沒有一個模型是完美的，我認為應該要事先說清楚。」阿莫戴強調，「我們傾盡全力讓模型更安全、強大，當然還是有些時候會捏造回應。」

資料來源：Anthropic、Bloomberg、CNBC

（本文轉載自《數位時代》）

Anthropic 推出全新模型「Claude 3」，比 GPT-4 更強大

大幅降低模型「幻覺率」，Anthropic 致力讓 Claude 3 更安全

更多 科技 相關文章

更多科技相關文章