氛圍編碼讓工程師陷 Debug 深淵,Deductive 用 AI 代理幾分鐘抓錯、年省上千工時
隨著軟體系統變得日益複雜,加上 AI 工具生成程式碼的速度飛快,工程師們似乎開始被淹沒於「除錯」(Debugging)任務之中,導致他們必須耗費近一半的工作時間尋找 Bug 源頭,而非專注於開發新產品。
為此,近日正式從隱身狀態亮相的新創公司 Deductive AI,選擇利用「強化學習」技術打造「AI SRE 代理」,號稱在幾分鐘之內,就可以診斷出生產力環境中的明確故障原因。
Debug 大海撈針,不如交給 AI 代理
當代軟體工程團隊經常面臨的挫折,在於可觀測性工具(Observability tools)通常只能顯示「故障」,卻很少解釋「為什麼」,這種情況導致工程師仍需要在系統崩潰時,手動花費數小時以比對日誌紀錄、各種指標與程式碼相關變更。
Deductive AI 共同創辦人兼技術長 Sameer Agarwal 形容,調查數位基礎設施的故障肇因,就像在一整片乾草堆裡面尋找一根針,而且這堆乾草還是由上百萬根針所組成,甚至還會不斷飄動並燒起來,同時,公司每多等待一秒鐘處理故障,就意味著收入正在不斷損失。
為了幫助工程師在第一時間就找出故障原因,Deductive AI 所開發的 AI SRE 代理系統,首先會將客戶的程式碼庫、遙測數據、工程討論和內部文件進行關聯,並組織成一張知識圖譜,以備後續進行故障排除。
隨後,當系統事故不幸發生,多個 AI 代理將會發起協作並提出假設,再利用即時的系統數據進行驗證,模擬資深 SRE(系統可靠度)工程師的調查流程,將原先需要數小時的故障原因定位工作,大幅縮短至僅需幾分鐘。
不只節省金錢花費,更省下人類工時
舉例來說,餐飲外送平台 DoorDash 旗下的廣告服務,通常得在 100 毫秒內完成即時競價,而 Deductive AI 則透過 AI SRE 代理,協助該平台找出近 100 起事故的肇因,並曾經透過分析 Log 和部署數據,發現某次 API 延遲飆升的元兇,其實是下游機器學習平台因更新導致的逾時錯誤。
DoorDash 資深工程總監 Shahrooz Ansari 直言,公司的廣告平台運作速度極快,根本無法承受人工調查的緩慢節奏,且停機時間的每分每秒都會直接影響公司營收,Deductive AI 的 AI SRE 代理已經成為團隊的重要工具,數分鐘內即可快速整合數十項服務的資訊,從中找出最為關鍵的洞察。
Shahrooz Ansari 進一步強調,對於 DoorDash 如此大規模的公司而言,在工作中整合 AI SRE 代理後,預計可以節省每年超過 1,000 小時的工程師工時,並挽回數百萬美元的潛在營收損失。
無獨有偶,地理位置服務公司 Foursquare 在採用了 Deductive AI 的技術後,將 Apache Spark 系統故障的診斷時間縮短 90%,甚至把以前需要數小時甚至數天才能完成的任務,縮短到僅僅只要 10 分鐘就可以搞定,藉此節省每年超過 27.5 萬美元的額外開銷。
氛圍編碼有利有弊,除錯任務更繁重
Deductive AI 的突然亮相,亦反映出現代軟體開發的全新窘境,那就是當 AI 工具讓程式碼產出變得更快,卻也讓程式碼變得更加難以維護。
Sameer Agarwal 說,目前氛圍編碼(Vibe Coding)的最大問題,在於 AI 經常引入冗餘程式碼、破壞架構邊界或忽略設計模式,因此才需要 AI 幫忙收拾 AI 自己製造的問題。
根據美國電腦協會(ACM)的報告顯示,軟體開發人員通常花費 35% 到 50% 時間,用於驗證與除錯程式;軟體交付平台 Harness 近期研究也發現,有高達 67% 的開發人員花費比過去更多時間,只為調整 AI 所輸出的程式碼。
Deductive AI 共同創辦人兼執行長 Rakesh Kothari 指出,許多世界級的工程師花費半數工作時間,只為替軟體除錯而非進行開發,當氛圍編碼行為以史無前例的速度成長,未來這個問題只會越來越嚴重。
強化學習加感知推理,同時兼顧安全
Deductive AI 進一步說明他們的 AI SRE 代理工具,跟市面上的現有產品,例如 Datadog 或 New Relic 究竟有何不同。
首先,Deductive AI 的產品具備「程式碼感知推理」(Code-aware reasoning)能力,而市場上大多數工具卻只是用大型語言模型(LLM)總結、判斷數據,不會讓 AI SRE 代理去理解程式碼邏輯與系統行為的因果關係。
Deductive AI 進一步解釋,當系統故障發生並觸發多代理調查,他們的工具就會讓不同代理分別專注於不同方面的問題。
比方說,某個 AI 代理可能會去分析最近的程式碼更改,而另一個 AI 代理則檢查追蹤數據,還有一個代理負責調查事件發生的時間跟近期系統變動之間的關聯,然後 AI 代理們會共享發現結果,持續迭代以完善各自的肇因假設。
其次,Deductive AI 為旗下產品引入了「強化學習」,即 AI SRE 代理會從每次調查中主動學習,記住哪些調查步驟能導向正確結果,若工程師再適時給予反饋,AI 模型還會變得更聰明。
最後,Deductive AI 的 AI SRE 代理只會透過唯讀 API,安全連接客戶的現有工具,例如可觀察性平台、程式碼儲存庫、事件管理工具及通訊系統等,持續更新自身的知識圖譜,映射服務之間的依賴關係、追蹤部署歷史紀錄。
人類參與仍有必要,放眼自動化未來
雖然 Deductive AI 所開發的 AI SRE 代理技術,本質上應該可以使發現故障、找出肇因與修復問題,全都交給 AI 自動化處理完成,但該公司仍刻意選擇讓人類參與其中。
Deductive AI 技術長 Sameer Agarwal 認為,讓人類參與故障修復流程,對於信任、透明度和系統的執行安全十分重要,因此,目前的 AI SRE 代理只會提議修復方案,讓工程師進一步審核、驗證與應用。
只不過 Sameer Agarwal 也承認,隨著時間推移,未來更深層的自動化勢必會出現,使人類的工作角色發生轉變。
除錯從「事後救火」轉向「事前預防」
Sameer Agarwal 曾是資料分析平台 Databricks 的首批工程師之一,更是知名近似查詢引擎 BlinkDB 的原始開發者。日前,Deductive AI 宣布完成由 CRV 領投的 750 萬美元融資,參與者包含 Databricks Ventures、 Thomvest Ventures 與 PrimeSet。
Deductive AI 強調,他們並不想跟 Datadog 或 PagerDuty 等平台競爭,而是將自身定位為現有工具之上的補充層,所以並不考慮以數據處理量收費,只會按調查事件的數量加上基礎費用向客戶收款,並提供雲端與私人託管選項,保證不使用客戶資料以訓練其他客戶的 AI 模型。
DoorDash 資深工程總監 Shahrooz Ansari 評論,Deductive AI 讓過去耗時費力的手動故障調查走向自動化,工程師也能將精力轉向預防措施設計、業務影響評估與創新研發。
顯然,在「每秒鐘停機時間」都意味著「營收損失」的產業中,從「事後救火」轉向「事前預防」模式,已經是企業得採取的必然轉型。
【推薦閱讀】
◆ 用 AI 對付 AI 處理「髒資料」,輝達看好的 WisdomAI 如何解決數據分析幻覺?
◆ 工程師每天分心 1,200 次!AI 與 MCP 如何幫開發者「專心」?
◆ 企業導入 AI 最大痛點不是技術,是不知該自動化什麼──Scribe 正在解決這件事
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《Deductive AI》,首圖來源:GPT-4o
(責任編輯:鄒家彥)