用過時資料訓練語言模型的「AI 時光機」，能否準確預測現在？

富比士專欄作者蘭斯·艾略特（Lance Eliot） 5 日撰文指出，AI 業界又興起以「過時資料」訓練大型語言模型（LLM）的逆潮流。Nick Levine、David Duvenaud、Alec Radford 4 月發表的論文，推出用 1930 年以前資料訓練的 talkie-1930-13b-base，讓使用者彷彿穿越回 20 世紀初。

模型只有 130 億參數，屬小型語言模型（SLM），以 2,600 億 token 的 1931 年前英語文本訓練，涵蓋書籍、報紙、期刊、專利與判例法。團隊選擇 1930 年是因之前作品於美國已進入公共領域。相較之下，主流 LLM 多以 10 兆至 15 兆 token 訓練，參數均超過 1,500 億。

Eliot 稱之為「AI 時光機」。他提醒並非真能還原過去，因以下理由：1. 版權日期可能誤植；2. 早年論文可能後期又修訂，混入新資訊；3. 調校時可能要求 AI 避開 1930 年前常見但現代視為不當的字詞；4. 可取得的數位化歷史文獻僅佔極小比例，本身就有抽樣偏差。

實測顯示，模型不知二次大戰、原子彈、智慧手錶、行動電話等後世產物；要它「預測未來」回答多半模糊，僅能勉強解讀為某場大戰或科幻發明。Eliot 原本期望 talkie 能反推現代 LLM 能否預見 2030、2040 年代趨勢，結果不太樂觀。另請模型「發明」1930 年後的機器，也只能停在概念階段。

Eliot 結論認為，研究意義在探索資料規模與性質如何形塑 LLM。他提醒教育界，若讓學生用此類模型回顧歷史，務必先說明侷限性。他文末引用富蘭克林名言「失去的時間永遠找不回來」，期望 AI 真能讓人類從歷史汲取教訓。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

從破產邊緣到晶片之巔：SK海力士的HBM傳奇與AI時代的逆襲

不是醫生、工程師！全台「1行業」最賺錢　平均月薪飆破7萬元

自行車業寒冬，捷安特為何敢開大店？揭開「不只賣車」的逆襲盤算

中油董座認了！也找聶永真設計新LOGO但考量虧損已暫緩實施

慘不忍睹！這款房跌落神壇　1數據全看懂

獨家》承億創辦人54歲戴俊郎意外辭世震撼旅宿業

請更新您的瀏覽器啟用Javascript