科學家正嘗試用機器學習破譯古代文字

1886 年，英國考古學家 Arthur Evans 偶然發現了一塊古老的石頭，上面刻著一些奇特的未知語言，在得知石頭來自地中海的克里特島（Crete）後，Evans 立即前往那裡尋找更多的證據，並發現了更多帶有類似文字的石板。

研究人員辨認出其中有著兩種文字體系，儘管努力多時仍未能破譯成功，但一直到 1953 年，業餘語言學家 Michael Ventris 才運用兩項假設破譯了其中之一的「線性文字 B」（Linear B）文字體系。

Ventris 推測，Linear B 寫作是古希臘文的一種書寫形式，文本中最常見的重複詞則代表所在地「克里特島」，這兩項假設都在後續獲得驗證，也讓他成功破譯線性文字 B 文本，因為這項突破，Ventris 也證明古希臘人書寫習慣比先前想像的還要早上幾個世紀。

Ventris 的突破是無法抹滅的成就。但是，其中更古老的線性文字 A（Linear A）至今仍是語言學中最大的謎團之一。

在機器學習技術出現後，短短幾年內，語言學研究產生了相當大的變化，近日麻省理工（MIT）和 Google AI 實驗室團隊開發了一種機器學習系統，能夠用來解讀那些失落的語言，他們也通過解譯線性文字 B 來證明這一點，這也是第一次由機器自動解讀線性文字 B。

傳統上來說，機器翻譯的中心思想是：無論哪種語言，單詞都以相似的方式相互關聯。因此在翻譯上會先將特定語言彼此間的關係描繪出來，再透過一對一的對應將整個語言轉換為另一種語言。

通過這種方式，翻譯句子的過程變成透過空間找到相似軌跡的過程，機器甚至不需要了解句子的含義便能夠運作，然而翻譯過程必須仰賴大型文本資料集。

幾年前，一個德國研究小組展示瞭如何用更小的數據庫進行類似的方法，可以用來翻譯缺乏大型文本數據庫的罕見語言。訣竅是找到一種不同的方法來約束沒有數據庫可以對照的機器。

團隊使用的方法與標準機器翻譯技術非常不同，在團隊的研究中，團隊認為，任何語言隨時間演變的方式都十分類似，相關語言中的符號以相似的分佈出現，相關的單詞具有相同的字符順序，利用這些規則限制機器，在知道相關語言之下，將可以更容易地破譯語言。

有鑑於資訊和語言演變所施加的限制，新的翻譯能夠以非常準確的方式翻譯這兩種語言，在線性文字 B 上，新技術成功將 67.3% 的同源詞轉換成希臘語。

這是令人印象深刻的工作，也將機器翻譯提升到一個新的水平，然而也提出了其他從未被破譯語言的有趣問題，像是線性文字 A。由於沒有人知道線性文字 A 與其它語言的關聯，舊技術與新技術都不起作用。

好消息是，由於機器不會覺得疲倦，團隊很可能會試著暴力破解線性文字 A，簡單嘗試將其解讀為機器翻譯已經懂的每種語言，如果能順利成功，那將是一項令人印象深刻的成就。

（首圖來源：Flickr/Ann Wuyts CC BY 2.0）

科技