請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

企業 AI 資料準備新思維,Empromptu 用「黃金管線」將 14 天任務縮短只需 1 小時

TechOrange 科技報橘

更新於 03月10日10:16 • 發布於 03月10日02:16 • Min

對於大多數企業來說,處理大量資料始終不是一件簡單的事情,尤其在 AI 時代來臨後,企業對於數據的應用需求,早已進階到了全新層次。

傳統 ETL(提取、轉換、載入)工具,比方說 dbt 與 Fivetran,雖然能夠處理穩定的資料綱要(Schema)結構化數據,但主要都是為了報表產出而設計,難以應對人工智慧運用資料的方式,即時處理混亂、不斷變動的營運資料,以供 AI 模型進行推論和訓練。

為此,資料平台公司 Empromptu 將上述兩種需求,分別界定為「推論正確性(Inference Integrity)」與「報表正確性(Reporting Integrity)」兩個大類。

同時 Empromptu 也藉由自主開發的「黃金管線(Golden Pipelines)」平台,將資料正規化直接整合到 AI 應用的工作流程中,把原本需要 14 天的人工資料處理任務,大幅縮短到 1 個小時之內完成。

一套自動化的 AI 資料準備中介層

目前 Empromptu 的主要服務對象,包含中大型企業與受到高度監管的產業,例如金融科技、醫療與法務等領域;而 Empromptu 所開發的平台,亦通過 HIPAA 與 SOC 2 等嚴格的資安合規認證。

簡單來說,Empromptu的「黃金管線」是一套自動化的中介層,介於原始營運資料與 AI 應用功能之間,系統本身則涵蓋 5 大核心功能,包含:資料導入、自動清理、結構化、標籤與豐富化、資料治理與合規。

Empromptu 的「黃金管線」平台支援檔案、資料庫、API 與非結構化文件等任何來源,且會透過自動清理機制,檢查並整理資料,隨後再進行 Schema 結構化作業,並填補資料缺漏與執行分類;此外,透過該平台所整理出來的數據,將內建稽核軌跡、存取控制與隱私保護機制,符合企業所需要的合規準則。

在技術上,Empromptu 的「黃金管線」平台結合了傳統的「確定性預處理」與「AI 輔助正規化」,因此系統並不會把每條資料的轉換規則都寫死,而是會自動找出數據不一致的地方,推論出缺失的結構,並且記錄每一次的轉換。

解決 AI 應用的「最後一哩路」難題

跟傳統 ETL 工具之間最大的差異,在於 Empromptu 的平台擁有持續評估機制,假如系統發現資料在正規化之後,將導致下游的 AI 準確度發生下降,平台就會透過比對正式環境的表現,即時攔截有問題的數據,打造出「資料準備」與「模型效能」之間的雙向回饋機制。

Empromptu 執行長 Shanea Leven 強調,企業 AI 通常不是在「模型層」就發生問題,而是在混亂資料接觸到真實使用者時,才會出現意料之外的崩潰。

雖然 Empromptu 的「黃金管線」平台看起來十足強大,但 Shanea Leven 表明,他們並不想要取代現有的 dbt 或 Fivetran 等應用,畢竟企業仍會繼續使用這些工具,維護資料倉儲與結構化報表。

Shanea Leven 認為,傳統 ETL 工具是專為「報表正確性」進行最佳化,假設資料結構穩定,企業就可以依照預先定義好的規則,高效轉換資料。

至於「黃金管線」則是為「推論正確性」最佳化,試圖解決 AI 應用的「最後一哩路」難題,讓企業不必再耗費數個月進行人工處理,就能使結構不夠完美的真實世界資料,轉變為 AI 可以直接使用的數據,重點在於過程不是盲目、制式的自動化,而是可被稽核並受到持續監控。

節省人力消耗,打敗 Google、Amazon

目前 Empromptu 的「黃金管線」平台已經有了不少應用案例。例如活動管理平台 VOW 曾協助同性戀者反詆毀聯盟(GLAAD)等組織,籌辦規模龐大的各式實體活動,而這類活動的贊助商邀請、門票購買、桌位預訂等資料,通常都是極其複雜,處理時更需要高度即時性與一致性。

過去,VOW 的工程師必須手動撰寫正規表示式(Regex)腳本來處理資料,所以當他們決定開發一項「AI 生成場地平面圖」的新功能時,就遇到了巨大的瓶頸,因為平面圖資料通常極度混亂且缺乏結構化。

這項連 Google 和 Amazon 的 AI 團隊,全都無法妥善解決的分析難題,最後卻由 Empromptu 的「黃金管線」平台,成功完成自動資料萃取與格式化,省去了大量的人工處理。

多次成功經驗讓 VOW 做出了重大決定,那就是開始將自家的系統架構,完全重寫並直接轉移到 Empromptu 的平台上。

瞄準特定團隊需求,革新資料準備方式

對於企業來說,Empromptu 所開發的「黃金管線」平台,十分適合卡在「資料準備」的人力瓶頸上,且難以將 AI 原型推向正式上線的工程團隊。

舉例來說,假設企業內部的資料科學家,總是需要花大量時間整理資料,然後工程團隊又得為了上線 AI 模型或應用,重新打造一套新流程,那麼 Empromptu 的一體化平台,就可以消除此類開發代溝。

當然,Empromptu 的解決方案也不是所有企業都適合,比方正在建立獨立 AI 模型,而非整合式 AI 應用的組織

此外,對於那些已經擁有成熟資料工程團隊,以及具備完善且專屬的 ETL 流程,或是偏好為每個功能挑選最佳工具後,再進行客製化組合的企業,Empromptu 的「黃金管線」平台顯然就會缺乏足夠的應用與設計彈性。

Empromptu 發展「黃金管線」平台的歷程,為企業 AI 資料的處理方式,帶來了許多關鍵啟示;傳統的資料準備方案和做法,似乎已經不能再一體適用,想要真正解決「最後一哩路」難題,將需要 AI 更提前、深層次的介入,並使整個過程獲得監控,藉此換取正確性的充足保障。

【推薦閱讀】

◆ 開發「醫生版 ChatGPT」年收破億!OpenEvidence 如何成為 74 萬名醫師的 AI 入口?
◆ 【不強迫放棄 Excel】把會計部門升級 AI 原生環境,Datarails 讓財務長也能「氛圍編碼」
◆ 甩開軟體拋售潮陰影!Databricks 估值衝上 1340 億美元,稱 SaaS 並未消亡

*本文開放合作夥伴轉載,參考資料:VentureBeatAI Magazine,首圖來源:Nano Banana Pro

(責任編輯:鄒家彥)

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

不買10年後會後悔!外媒點名「現買2檔股票」 台積電入列

CTWANT
02

金價慘跌16%免驚? 分析師:回檔便是進場時機

CTWANT
03

封面故事/信驊21年市值增加萬倍 萬元股王林鴻明拚新事業

鏡週刊
04

財經時事/八面埋伏搶微風金雞母 廖鎮漢北車商場保衛戰開打

鏡週刊
05

不只台積電!外媒點名2檔個股:買了10年後會感謝自己

民視新聞網
06

台灣外匯存底近20兆「全球第7」!南韓26年最慘跌出前10

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...