2 個工程師、3 個月搞定 600 PB 數據!揭密 OpenAI 內部 AI 代理如何讓 4 千名員工大省時間
在過去,當企業分析師需要從海量資料中交叉比對各個地區與客戶群的營收時,往往需要耗費數小時甚至數天。他們必須在數以萬計的資料集中尋找正確的表格、撰寫複雜的 SQL 查詢語法,並反覆確認資料架構。如今,在 OpenAI 內部,員工只需要在通訊軟體 Slack 中輸入一段簡單的自然語言提問,幾分鐘內就能獲得一份完整的分析圖表。
這個改變背後的工具,是 OpenAI 內部一個由兩名工程師在三個月內打造的 AI 資料代理(AI data agent)。該系統如今已被約 4,000 名員工每天使用,能搜尋超過 7 萬個資料集與約 600 PB 的企業資料,讓員工透過自然語言就能完成複雜的資料分析。值得關注的是,其中 70% 的程式碼由 AI 生成。
搜尋 600 PB 海量資料,AI 代理的強大威力
OpenAI 面臨的資料挑戰極為龐大,其資料平台涵蓋超過 70,000 個資料集,總資料量高達 600 PB(Petabytes)。要在如此浩瀚的數據庫中找到正確的資料表,是資料科學家最頭痛的難題。
為了解決這個痛點,OpenAI 的資料平台團隊開發了一款基於 GPT-5.2 模型的 AI 資料代理。它被無縫整合到員工日常使用的介面中,包括 Slack、網頁介面、開發環境(IDE)以及內部的 ChatGPT 應用程式。
無論是財務團隊查詢營收數據、產品經理追蹤新功能採用率,或是工程師除錯系統延遲問題,這個 AI 代理都能跨越部門藩籬,將散落各處的資料進行統整與深度分析。
OpenAI 資料基礎設施負責人 Emma Tang 表示,這個系統平均每次查詢可節省 2 至 4 小時的工作時間。更重要的是,它讓許多非技術部門也能直接取得資料洞察,例如產品、行銷或成長團隊。
精準回答的秘密:打造 6 層上下文架構
然而,讓 AI 代理回答資料問題最怕遇到的就是「一本正經地胡說八道」,也就是幻覺與過度自信。為了確保 AI 代理能精準且正確地運作,OpenAI 團隊為其精心設計了 6 層上下文(Context)機制。
第一層:Table Usage(資料表使用模式)。系統利用資料表的 schema、欄位與歷史查詢紀錄,了解哪些資料表通常會一起使用。
第二層:Human Annotations(人工註解):由資料專家提供資料表與欄位的說明,補充 metadata 無法表達的商業語意。
第三層:Codex Enrichment(程式碼分析):AI coding agent Codex 會分析資料管線程式碼,理解資料表如何生成、更新頻率、主鍵與依賴關係。
第四層:Institutional Knowledge(企業知識)。系統會讀取 Slack、Google Docs、Notion 等內部文件,理解公司內部的指標定義、專案代號與產品事件。
第五層:Memory(學習記憶)。當使用者修正錯誤或補充資料邏輯時,代理會將這些知識保存起來,提升未來回答品質。
第六層:Runtime Context(即時資料探索)。當前五層找不到答案時,代理會直接對資料倉儲進行即時查詢與探索。
透過這 6 層上下文,AI 不只是查詢資料,而是能理解資料背後的商業語意與技術結構。
要留意的是,上下文越多不一定越好,Emma Tang 指出,過多資訊反而可能降低準確率。其團隊經過實驗後發現,精選且準確的上下文比大量資料更有效。
除此,針對 AI 有時會過早認定某個資料表是正確來源,結果導致錯誤結論的情形,OpenAI 在提示詞中加入一段特殊指令,要求代理在分析前先進行「探索階段」,搜尋多個資料來源並進行驗證,再開始分析。
AI 代理競賽的真正門檻:資料治理
儘管 AI 模型能力持續提升,OpenAI 認為企業導入 AI agent 的最大挑戰並不是模型本身,而是資料治理(data governance)。Emma Tang 指出,如果企業資料缺乏整理與註解,即使最先進的 AI 模型也很難給出可靠答案。
換句話說,AI agent 並沒有取代企業既有的資料基礎設施,而是建立在其之上的新入口。資料倉儲、資料管線與商業智慧系統等底層基礎設施仍然是運作基礎。但一旦這些基礎準備就緒,AI 代理就能讓資料分析從專業技能變成日常能力。
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、《Business Insider》、OpenAI,首圖來源:Unsplash