獲亞馬遜、Google 投資的 Anthropic,本周發表了 Claude 3 系列模型,號稱優於包括 GPT-4 在內的所有競爭對手,是目前最快最強大的模型,甚至在某些任務上展現「接近人類」的能力。
「今天,我們宣布推出 Claude 3 系列模型,它對廣泛的認知任務(cognitive tasks)奠定了新的產業標準。」Anthropic 在官網上表示。
Anthropic 推出全新模型「Claude 3」,比 GPT-4 更強大
Anthropic 發布模型分別有 Claude 3 Haiku、Claude 3 Sonnet 及 Claude 3 Opus 三種型號,性能以低到高排列,針對不同的需求、成本提供用戶選擇。目前 Opus 和 Sonnet 可以在 Claude.ai 上及 Claude API 中使用,不過 Opus 需要訂閱每月 20 美元的 Claude Pro 才能使用,Haiku 則即將推出。
Anthropic 給予了各個模型不同的定位:
• Claude 3 Opus: 是 Anthropic 最為先進的模型,擁有逼近人類理解能力及流暢性,用於極為複雜的任務及開放式的提示詞。
• Claude 3 Sonnet: 是聰明程度與速度之間取得平衡的模型,有著比同類產品更實惠、高 CP 的表現,專為大規模使用 AI 時所需的高耐用性設計。
• Claude 3 Haiku: 最小輕巧、快速的模型,有著近乎即時的回應能力,能夠快速回答簡單問題,用於與用戶的即時互動。
Anthropic 聲稱,在大多數的測試方面,這次發布中最強大的 Opus 都優於檯面上的各大 AI 模型,包括大學水準的專家知識(MMLU)、研究生水準的專業推理(GPQA)、基礎數學(GSM8K)等都取得超越 GPT 在內各家 AI 模型的成績,並且在複雜任務上表現出接近人類水準的理解能力及流暢程度。
同時在視覺能力上,Claude 3 系列模型也有著與競爭對手相當的表現,可以處理從照片、圖表到技術圖表等複雜的視覺內容。
Anthropic指出,許多客戶的知識庫裡超過一半都是 PDF、流程圖和投影片等各種類型的視覺內容,他們很高興能為客戶提供這種新的模態。值得注意的是,雖然 Claude 3 系列模型可以處理圖像,但不會生成圖像內容。
根據《CNBC》報導,Anthropic 指出 Claude 3 大約可以處理約 15 萬個單字(20 萬代幣)的文本,相當於一本《白鯨記》或《哈利波特:死神的聖物》,過去的版本只能處理約 7.5 萬個單字。
而在 Anthropic 揭露的資料中,最輕量級的 Haiku 可以在不到 3 秒的時間內,處理完包含各種複雜圖表、字符量 1 萬代幣規模的研究論文。
而在價格方面,Anthropic 為 Opus 開出輸入 15 美元/每百萬代幣、輸出 75 美元/每百萬代幣的費用,這個價格遠高於 GPT-4 Turbo 輸入 10 美元/每百萬代幣,輸出 30 美元/每百萬代幣,或許也代表著 Anthropic 對自家模型的足具信心。
大幅降低模型「幻覺率」,Anthropic 致力讓 Claude 3 更安全
聊天機器人很容易受到誤導、或者對問題理解不充分而回答出捏造的答覆,這個情況被稱為「幻覺」(hallucination),也被認為是催生假消息的可能源頭。
Anthropic 也試圖透過出 Claude 3 解決這個問題,聲稱在測試一系列特別刁難、複雜的問題時, Opus 模型回答的正確率已經達到舊模型的兩倍以上 ,大幅減少了錯誤回應的比例。不過他們也坦承完全解決這個問題並不容易,「幻覺率要達到零是非常困難的。」Anthropic 總裁阿莫戴(Daniela Amodei)表示。
「沒有一個模型是完美的,我認為應該要事先說清楚。」阿莫戴強調,「我們傾盡全力讓模型更安全、強大,當然還是有些時候會捏造回應。」
(本文轉載自《數位時代》)
延伸閱讀
生成式 AI 湧入影像賽道!OpenAI、Google 陸續投入,它們各自強在哪?
機器人也追求斜槓!MIT 歸納 2024 年 3 大 AI 應用趨勢
AI 助攻!2024 年 IoT 物聯網應用趨勢:車對車、永續循環鏈…