請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Gemini 3.0 要來了?神秘Google模型一鍵破解古文帳冊:為何AI能看懂手寫字跡,背後商機無限?

數位時代

更新於 2025年11月14日01:23 • 發布於 2025年11月13日06:30

AI現在不只看得懂字面上的意思,還能理解字面意義背後的真實世界規則。

近期,一位歷史學者把一頁1758年的商人日記帳丟進Google的AI Studio,本想測試抄寫能力,卻看見模型主動推理出英制貨幣與重量的換算,將一串模糊的「145」還原為「14磅5盎司」,並精確對齊最終金額。

加拿大勞雷爾大學教授馬克·亨弗里斯(Mark Humphries)在專文中指出,Google AI Studio近期不定期出現的A/B測試,被認為是Gemini 3.0 Pro在推出前的測試版本。綜合他在上述歷史文件上的測試,亨弗里斯認為這款「未知Gemini模型」同時突破了「手寫文本最後一哩的準確度」與「視覺結合推理的隱性符號化」兩個老問題。

前者,是將手寫文字辨識(HTR)提升到專家級準確度,顯著壓低過去最難的「最後10%」錯誤(特別是名字、日期、金額、地名與不規則拼寫), 實測在排除歧義標點與大小寫後,達到字元錯誤率(CER)約0.56%、詞錯誤率(WER)約1.22%

後者,則是模型在未被明確要求下,能把視覺辨識與情境推理結合,進行近似「符號推理」的一致性校驗與換算。

這兩點使亨弗里斯推論: 當模型不只把字「抄對」,還能連同上下文與世界規則「讀懂、驗算、自我更正」後,原本難用的歷史與實務檔案,將變成可檢索、可審核、可追溯的資料資產。

這意味著, 在需要高精度「視覺+合規推理」的各領域(史料、帳冊、醫療、法務、製造現場),都可能迎來可靠性的質變:從單純的轉錄,進階到基於現實世界規則的上下文理解。

最後一哩的準確度,卡住了AI的價值

手寫文字識別(HTR)是AI最古老的命題之一,從1966年的IBM機器讀字到近年的多模態LLM,進步穩定卻總在「最後10%」前止步。亨弗里斯解釋,對歷史學者而言,真正有用的不是把「大部分」字看對,而是把「名字、日期、金額、地名」這些低機率、不可預測的關鍵信息讀對;沒有這些,文本再優美也無法進入研究與檢索。「最後一哩的準確度,才是生產力的分水嶺。」

亨弗里斯與研究夥伴建了約50份、共1萬字的測試集,涵蓋18至19世紀的各式手寫風格與設備掃描,並以CER/WER評估。此前的里程碑是:Gemini 2.5 Pro在嚴格標準下達到接近人類的區間(CER約4%、WER約11%);若排除大小寫與標點這類不影響理解的爭議性錯誤,能降至CER約2%、WER約4%。這是系統性迭代的勝利,但離「專家級」仍有距離。

轉捩點:一個日記帳,逼出了推理本能

AI Studio近期被發現偶爾會出現A/B雙輸出供用戶投票,外界猜測這是新款Gemini(或許是Gemini 3)的灰度測試。亨弗里斯以同樣測試流程反覆重試,選取最難的五份手稿:混合語言、拼字錯亂、標點雜亂、大小寫不規則。

結果令人吃驚。在嚴格標準下,模型達到CER約1.7%、WER約6.5%;若剔除高度爭議的大小寫與標點,錯字率進一步降至CER約0.56%、WER約1.22%。這幾乎就是「專家水準」。

更關鍵的是第六份「挑戰項」:1758年奧爾巴尼商人的日記帳。這類帳冊的字跡連人都難以辨識,更別說是模型。其以舊式英貨幣(1英鎊=20先令、1先令=12便士)記載,且帳冊中非十進位、小計與合計交錯、項目收支交織、速記符號與刪線混用。傳統模型常在數字與結構上崩潰,例如把單價與合計混在一起、看不出重量或長度單位,甚至在輸出中重複卡死。

但這次, 未知Gemini不但把名字與商品對齊,更在一筆「塔糖(loaf sugar)」的記錄裡,自主判定「145」並非數字序列,而是重量的拆分,進而以價格「每磅1先令4便士(即16便士)」與總額「0鎊19先令1便士(即229便士)」倒推重量:229÷16=14.3125磅,即「14磅5盎司」。

亨弗里斯在文中解讀:「當模型開始自發地對齊上下文,它就跨過了理解的門檻。」

方法論拆解:視覺、語境、規則⋯3重對齊

視覺:從像素到字形的識別

亨弗里斯指出,未知Gemini展現了更穩定的「字形解碼」能力,把多種手寫體的變體、連筆與掃描噪音處理為一致的字符序列。這讓「基礎可讀性」不再是瓶頸,也使後續語境推理建立在乾淨的輸入上。

過去的痛點在於,手寫識別的誤差往往是「連鎖錯誤」:一個字母看錯,整串詞與句意就偏航。穩健的視覺,是所有後續推理的地基。

語境:將「不可預測信息」嵌入情景

名字、日期、金額這些在統計分佈上屬於「低頻且不可預測」的信息,傳統LLM易以高頻詞替代(如把罕見姓氏改成常見姓氏)。未知Gemini的不同在於:它在帳冊情境中,能辨識出「金額=單價×數量」以及「英貨幣的非十進位結構」,於是把低頻信息錨定在更大的語境網絡裡。

簡單來說,在「任務結構可被識別」的場景裡,模型可以透過上下文的一致性約束生成範圍,以避免機器幻覺。

規則:從隱性記憶抽取「世界規則」

最令人側目的,是模型並未被明確告知英制貨幣與重量的轉換規則,卻能在上下文中調用「每先令12便士、每磅16盎司」等隱性知識,並在兩個非十進位系統間來回換算,使「單價、數量、合計」三者閉環一致。

其關鍵在於「隱性符號化」:在足夠多的結構化樣本中,模型可以自己組裝出可操作的準規則,並以一致性檢查確保資料正確。

功能大躍進:從「抄寫員」到「審計師」?

綜合亨弗里斯的發現,這意味著未來AI不僅能把文本準確轉成可檢索的資料,還能對交易、度量衡、文化語境做出一致性解讀;在更廣的產業場景,例如醫療手寫病歷、物流簽收單、法務契據、製造現場點檢,AI模型可從「看懂」走向「查核」,以確保資料的可信度。

對商業來說,這是一個明確信號: 當模型能從語境生成規則,產品就能從工具躍遷為系統。

對Google而言,未知Gemini在AI Studio的試水,展示了從 「視覺→語境→規則→一致性」 的完整飛輪;對所有以資料為燃料的行業,這是一次重要的可靠性疊代。

延伸閱讀:65歲被28歲管,Mata首席科學家不幹了!一場人事動盪,揭社群巨頭技術路線大分歧
當輝達還在舞台走秀,Google悄悄亮出底牌了!第七代TPU「Ironwood」如何將AI戰爭升級至下半場?

資料來源:Generative History

延伸閱讀

開啟Google Sheet的AI公式!在試算表叫 AI 大量翻譯、總結,6個推薦用法必收
鴻海法說|Q3淨利577億創新高!AI伺服器營收提前破兆,劉揚偉喊「明年市占破四成」
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

震撼!台積電宣布出售世界先進15.2萬張持股 持股比降為19%

自由電子報
02

朝9晚5是奴隸!27歲消防員「炒股2個月爽賺70萬」秒離職 親哥看傻:還有救嗎...兩派戰翻

鏡報
03

00403A溢價結束了嗎?400億「甜蜜負擔」,竟推升另一檔ETF上漲?

商周財富網
04

黃仁勳隨川普訪中!被追問「會賣晶片給華為?」當場傻眼噴1句

民視新聞網
05

台積電重磅操作!宣布拋賣「這公司」1.52億股 預計出售對象曝光了

民視新聞網
06

全聯最賣的烘培產品是「吐司」!一年撐起 9 億元業績,新系列克服哪些難題?

經理人月刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...