一組科技專家周一 (16 日) 發出全球召集,尋求最具挑戰性的問題,以測試人工智慧 (AI) 系統,因為這些系統在處理流行基準測試時已顯得輕而易舉。
這個名為「人類的最後考試」的項目旨在確定專家級 AI 的到來。根據組織者的說法,這個項目希望在未來幾年內,隨著能力的提升,仍然保持其相關性。該項目由非營利組織人工智慧安全中心(CAIS)和初創公司 Scale AI 共同發起。
此前不久,聊天機器人 ChatGPT 製造商 OpenAI 甫推出強大的 AI 新模型 o1。CAIS 執行董事兼馬斯克 xAI 初創公司顧問 Dan Hendrycks 表示,該模型「摧毀了最受歡迎的推理基準」,例如,傳統的數學和邏輯推理測試,AI 系統在這些測試中通常能輕鬆獲得高分。
Hendrycks 在 2021 年與人合著了兩篇論文,提出了對目前廣泛使用的 AI 系統進行測試的方法,其中一篇測試了美國歷史等大學水準的知識,另一篇則探討了模型通過競賽級數學進行推理的能力。比如,AI 系統在美國歷史的問題上,能否正確回答「獨立宣言是什麼時候簽署的?」這類問題。根據在線 AI 平台 Hugging Face 的數據,這種大學式測試下載量超過了任何類似數據集。
在發表這些論文時,人工智慧幾乎對考試問題給出了隨機答案,但如今情況已大為改變,這些問題已不再困住 AI。例如,AI 實驗室 Anthropic 的 Claude 模型在 2023 年大學水準測試中的得分約為 77%,而一年後幾乎達到了 89%。這顯示出 AI 的進步速度之快。
然而,這些常見基準的意義減少了,因為 AI 的表現已經超過了這些測試的難度。根據斯坦福大學的 AI 指數報告,AI 在涉及計劃制定和視覺模式識別的較少使用測試中表現不佳。例如,OpenAI o1 在一個版本的模式識別 ARC-AGI 測試中得分約為 21%,這表明在這些更具挑戰性的任務中,AI 仍然面臨困難。
一些 AI 研究者認為,這些結果顯示計劃和抽象推理是更好的智力衡量標準。例如,能否從一組數據中推導出未來的趨勢,或是解決複雜的邏輯謎題,都是評估 AI 能力的關鍵。Hendrycks 指出,「人類的最後考試」將專注於這類抽象推理。
業內觀察人士指出,常見基準的答案可能已經出現在用於訓練 AI 系統的數據中。Hendrycks 表示,「人類的最後考試」中的某些問題將保持私密,以確保 AI 系統的回答不是來自記憶。
該考試將包括至少 1000 個來自群眾的問題,截止日期為 11 月 1 日,這些問題對於非專家來說相當困難。例如,可能會問「如何設計一個能有效解決氣候變化的政策?」這類問題將經過同行評審,獲勝的投稿將獲得共同作者資格和高達 5000 美元的獎金,該獎金由 Scale AI 贊助。
Scale 的首席執行官 Alexandr Wang 表示:「我們迫切需要更難的測試來衡量專家級模型的快速進展。」他強調,隨著 AI 技術的迅速發展,現有的測試已經無法充分評估其能力。
一項限制是:組織者希望不包括有關武器的問題,因為有人認為這對 AI 的研究來說過於危險。這項考試的設計意在推動 AI 的負責任發展,確保其在安全的範疇內進行挑戰。
更多鉅亨報導
•AI結合物理原理 Google推出全新天氣預測模型 研究登上Nature
•自家技術未夠班!亞馬遜10月更新Alexa語音助理 採用Anthropic Claude AI模型