請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

要求AI模仿《星際爭霸戰》能提升效能,但還是用「自動優化」以魔法打敗魔法最有效

T客邦

更新於 2024年03月30日16:12 • 發布於 2024年03月21日06:00 • ycr

要如何有效使用LLM,是當今AI蓬勃發展下的一大課題。近日有研究報告發現,要求AI模仿《星際爭霸戰》,能有效提升LLM數學推理能力。另外在多數情況下,以「自動優化」的提示,效果要比手動編寫還好。

當今大型語言模型(LLM)展現了驚人的問題解決、數學推理等能力,然而LLM的性能,其實很大程度上取決於提示詞的品質,因此就有不少人在探討,提示詞是如何影響著生成結果。而就理性層面來說,AI並不具備情感,所以不會被人類的情緒所影響,不過卻有不少的研究顯示,「正向提示」將有助於提升LLM的性能。

近日就有篇論文針對「正向思考是否有助於提升LLM」進行研究,不過卻在過程中發現一個有趣又奇特的結果,就是在特定模型下要求AI以《星際爭霸戰》的角色方式來回答,能有助於提升其數學、推理能力。不過,不管是在何種情況下,自動優化的提示幾乎都會優於手工編寫的提示,看來還是以魔法來打敗魔法最有效。(主圖來源:Netflix

文章目錄

  • 1. 古怪的提示詞產生不合理的有效性

  • 正面提示對多數的LLM有效果

    • 自動提示比手工編寫的提示好
    • 要求AI模仿《星際爭霸戰》能提升數學推理能力
  • 2. 古怪的提示為何有效?特殊提示詞的觸發

  • 3. 透過AI「自動優化」提示詞,以魔法打敗魔法吧

要求AI模仿《星際爭霸戰》能提升效能,但還是用「自動優化」以魔法打敗魔法最有效

古怪的提示詞產生不合理的有效性

在「The Unreasonable Effectiveness of Eccentric Automatic Prompts」論文中,為了量化「將正面思考納入提示的系統訊息中」所帶來的影響,研究人員評估了60種訊息片段組合,並對三個具有7到70億參數的模型進行GSM8K(Grade School Math 8K,小學數學8,000題)測試,模型分別為Mistral-7B5、Llama2-13B6 和 Llama2-70B7。

正面提示對多數的LLM有效果

首先,研究人員先將提示詞分為「開頭」、「任務描述」和「結尾」三個部分,並分別提供5種、3種、4種的描述,像是「你和 ChatGPT 一樣聰明」「你是一位數學專家」「深呼吸,仔细思考」「我真得很需要你的幫助!」等鼓勵AI的話語,在各種排列組合下共會產出60種不同的訊息描述。

要求AI模仿《星際爭霸戰》能提升效能,但還是用「自動優化」以魔法打敗魔法最有效

正如先前許多類似的測試,在大部分的情況下,正面提示皆有效地提升LLM的效能,不過仔細來看,這方法並不通用於所有模型。如使用Llama2-70B時,當提示詞的開頭、任務描述和結尾三個部分全部皆為「None」時,模型產生了最佳的結果。

自動提示比手工編寫的提示好

由於以人力完善提示並監控隨後分數進展是非常低效的,因此研究團隊也使用DSPy優化器(自動優化器:可以自動生成提示的工具)進行提示詞的優化,並對兩者進行對比。

雖然目前沒有看到一個很顯著的結果證明,以何種開頭+任務描述+結尾的組合,能使LLM獲得最大的提升,因為在跨模型下都會有例外。但從手動生成「正向思維」提示,轉變成自動優化的提示後,在幾乎所有情況下,自動生成的效果都優於或等於手工編寫的提示。

要求AI模仿《星際爭霸戰》能提升數學推理能力

要求AI模仿《星際爭霸戰》能提升效能,但還是用「自動優化」以魔法打敗魔法最有效

而在使用自動優化的提示詞中,不僅效果比人工編寫的還要好,還能看到充滿創意的提示詞。像是Llama2-70B表現最好的提示之一是:

系統訊息:「指揮部,我們需要你透過這種亂流繪製一條航線,並找到異常的來源。利用所有可用的數據和您的專業知識,來引導我們度過這個具有挑戰性的情況。」

答案前綴:「船長的日誌,星際日期[在此插入日期]:我們已成功地在亂流中繪製了一條航線,現在正在接近異常的來源。」

研究發現,似乎透過表達對《星際爭霸戰》的喜好,可以增強模型的數學推理能力。不過同樣的,這不適用於任何情況。

古怪的提示為何有效?特殊提示詞的觸發

對於情緒提示、又或是要求AI像上述模仿《星際爭霸戰》角色,為何能有效提升LLM的能力,目前仍不得而知。有些人猜測,因為人工智慧在訓練時,所接收到的資料範圍很廣,而當使用不同於平常的提示詞時,可能觸發到人工智慧平時不會被「活化」的部分,因此給出了非常規的解答,而意外的有效。

透過AI「自動優化」提示詞,以魔法打敗魔法吧

雖然還是不能百分之百確定到底說正面、鼓勵還是哪種話,才能夠有效提升大型語言模型的性能,但可以確定的是,自動提示可以打敗人為提示。有鑑於大型語言模型就是個黑盒子,要理解其中的複雜運算並手動優化提示,絕非是個聰明的做法,「在我看來,任何人都不應該再嘗試手寫提示,」論文作者巴特爾告訴《新科學家》,「讓模型為你做。」

論文網址:https://arxiv.org/html/2402.10949v2
參考資料:https://www.businessinsider.com/using-star-trek-prompts-boost-ai-chatbot-basic-math-performance-2024-2
文中《星際爭霸戰》圖片來源:Star Trek 臉書粉絲專頁

查看原始文章

更多科技相關文章

01

微軟遊戲部門人事變動:Phil Spencer 宣布退休,Asha Sharma 接執行長

科技新報
02

CNBC:OpenAI目標2030年運算支出達6000億美元

路透社
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...