請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

從 ChatGPT 生成程式碼抓錯,OpenAI 開發新模型「CriticGPT」

科技新報

更新於 06月28日18:14 • 發布於 06月28日18:14

OpenAI 研究人員微調 GPT-4 模型,訓練「CriticGPT」用於找出 ChatGPT 生成程式碼的錯誤,幫助大型語言模型生成內容更精確。

驅動 ChatGPT 背後採用了 GPT-4,OpenAI 使用基於人類意見回饋的強化學習(Reinforcement Learning from Human Feedback,RLHF)來對齊。RLHF 是一種機器學習技術,以人類的意見回饋微調模型,判斷模型生成內容是否連貫、準確、不令人反感。AI 訓練人員給出評分回饋到驅動模型運作的演算法。為使 ChatGPT 這類聊天機器人更可靠並防止行為不正,RLHF 扮演的角色相當重要,卻使 ChatGPT 錯誤更加微妙、不易發現。

一篇《LLM Critics Help Catch LLM Bugs》新論文敘述,OpenAI 開發出 CriticGPT,做為 AI 訓練人員的新助手,負責檢視 ChatGPT 生成程式碼並指出錯誤,幫助人們發現可能被忽略的錯誤。

事實上,CriticGPT 也使用 RLHF 進行訓練;但與 ChatGPT 不同的是,OpenAI 研究人員故意插入大量錯誤程式碼的資料訓練 CriticGPT,教導它辨識和標記各種程式碼錯誤,CriticGPT 必須對程式碼錯誤做出評論。

▲ CriticGPT 找出 ChatGPT 生成程式碼的錯誤。(Source:OpenAI Blog

OpenAI 規劃將類似 CriticGPT 的模型整合至 RLHF 標註流程中,為 AI 訓練人員提供明確幫助。CriticGPT 有助於 OpenAI 訓練出更強大的模型,確保生成內容值得信賴,符合人類價值觀。

(首圖來源:Unsplash

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 0

沒有留言。