自從 OpenAI 去年推出其第一個推理模型 o1,AI 圈掀起新一波革命。不論是 DeepSeek 的 R1、Google 的 Gemini 2.0 Flash Thinking、加州大學柏克萊分校發表的低成本開源推理模型 Sky-T1,或 OpenAI 將推出的 o3,都具有推理功能。
這些 AI 推理模型,採用新的訓練方法「思維鏈(CoT)」,需要長一點的時間來回答問題,但也更善於解決多步驟的複雜問題,被比喻為「會思考」、「會自我反省」。不過這也代表,如果要釋放推理模型的真正價值,需要用不同的方式來下 prompt(提示)。
舉例來說,o1 剛推出時,有使用者毫不猶豫地訂閱了,但使用一天後覺得它是「垃圾」──每次問問題需要 5 分鐘,得到的回答卻是一堆相互矛盾的官腔內容,甚至出現他沒有要求回答的資訊。在社群媒體上,有許多人表示認同,但也有反對意見。
「我將 o1 當作聊天模型,但 o1 不是聊天模型」
OpenAI 共同創辦人間兼總裁 Greg Brockman 日前在社群平台 X 轉發貼文,提到 o1 不同於標準的聊天模型,需要新的方法來使用。蘋果前 visionOS 介面設計師、Dawn 創辦人 Ben Hylak 就在經歷一段痛苦使用過程後,恍然大悟自己使用 o1 的方式完全錯了,「我將 o1 當作聊天模型,但 o1 不是聊天模型」。
他認為,應該將推理模型當作「報告生成器」,如果提供對的提示,通常會一次就能找到解決方案。Hylak 根據個人經驗分享了 3 大使用重點,引發了社群熱烈迴響。
1. 不要寫 prompt,而是寫 brief
Hylak 強烈提醒,人們不應該提供只提供 o1 簡短的 prompt,而是要像跟他人 briefing 一樣提供更詳盡的解釋,以及大量的背景資訊,包含希望模型輸出什麼、使用者是誰的上下文,以及希望模型以什麼格式輸出資訊。
Hylak 解釋,Claude 3.5 Sonnet 或 4o 等聊天模型的本質是透過你問我答,甚至是主動提問的方式獲得上下文資訊,而隨著時間累積,即便使用者問的問題變得簡略、懶惰,也仍然能得到很好的回答。但是,o1 只會根據問題進行回答,因此必須像對待新進員工一樣,盡量一次提供充裕的上下文作為提示。
他舉例,如果你想問寫程式的問題,請解釋你試過但無效的方法、提供資料庫結構、解釋你的公司是做什麼的、有多大。當然,這可能會花很多時間,Hylak 的小技巧是使用語音備忘錄,用1~2 分鐘解釋問題,再把紀錄貼給 o1。
2. 專注於目標:說你想要什麼,而不是如何做
曾經了解 AI 提示技巧的人,或許都習慣為 AI 指定角色,甚至拆解步驟告知它如何思考,像是「你是一位專業的軟體工程師」、請你「慢慢與仔細思考」。然而,Hylak 表示要在 o1 獲得好的回答,作法相反。
他表示,一旦提供足夠的上下文背景資訊,就要專注在解釋你想要輸出的內容是什麼。「我不指導它如何做,只告訴它做什麼,」推理模型會規畫並解決自己的步驟,而這就是推理模型「自主推理」的目標。
整體來說,Hylak 提供給推理模型的提示指令,結構包含:目標、希望輸出的格式、警告事項、大量的上下文背景資訊。
3. 掌握 o1 擅長什麼、不擅長什麼
Hylak 發現,o1 擅長的任務包含:完美地一次性處理整個甚至多個文件、較少產生幻覺、透過範例解釋困難的概念、評估。
因此,Hylak 在寫程式制定困難決策時,會讓 o1 生成多個計畫,並將 o1 的回答複製貼上成 PDF 格式,再讓 o1 比較這些計畫──就如同自己在思考與比較一樣。
相較之下,o1 比較不擅長的任務包含:使用特定風格來寫作、打造整個應用程式。Hylak 補充,o1 雖然幾乎可以一次完成前端或簡單的後端功能,但不會打造整個 SaaS、進行大量迭代。
AI 模型類型日益多元,了解各種模型的專長,將有助於更有效率的解決問題。在使用不同模型之前,使用者將會開始思考:什麼任務我願意花 5 分鐘等待?不過,即使是使用一般 AI 模型的使用者,也可以參考 Hylak 的使用心法,提升個人提示技巧、獲得更好的成果。
【推薦閱讀】
◆ 「你會用 AI 嗎?」已成面試必考題,當代企業究竟想要哪種員工?
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、《Latent Space》、《TecChrunch》,首圖來源:生成式 AI 工具 Ideogram。
留言 0