甲骨文是迄今為止中國(guó)發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng), 但是甲骨文的研究卻有不小的難度。近期,廈大研究團(tuán)隊(duì)使用AI大模型技術(shù)探索甲骨文考釋新途徑。目前,這一項(xiàng)目已入選由國(guó)家文物局指導(dǎo)的“探元計(jì)劃2024”前十榜單。

甲骨文距今已有三千多年歷史,是世界四大古文字之一,也是現(xiàn)代漢字的根脈。傳統(tǒng)的破譯工作,需要研究者在卜辭原文和古書(shū)之間反復(fù)比對(duì)驗(yàn)證,甲骨文又往往一字多義,可參考的史料極少。目前已知的近5000個(gè)甲骨字,得到破譯的不到三分之一。為此, 廈門(mén)大學(xué)信息學(xué)院史曉東教授團(tuán)隊(duì)著手嘗試“古文字+人工智能”的跨界研究,耗時(shí)七年多,研發(fā)出了甲骨文輸入法。

廈門(mén)大學(xué)信息學(xué)院教授 史曉東:從來(lái)的“從”,兩個(gè)“人” ,這個(gè)就變成北了,兩個(gè)人相背,這樣背靠背就是“北”。
只需要輸入一個(gè)甲骨文的偏旁部首,系統(tǒng)就會(huì)自動(dòng)搜索到包含這一偏旁部首的所有甲骨字及其字形結(jié)構(gòu)、意義、用法等。不僅如此,該系統(tǒng)還可以查詢卜辭原文、推算近似字,就像一本便攜、多功能的甲骨文“線上字典”,可以減少研究者查閱文獻(xiàn)的時(shí)間,提高研究效率。

在此基礎(chǔ)上,最近,史曉東教授團(tuán)隊(duì)又有了新的研究計(jì)劃——“基于甲骨文多模態(tài)大模型的多元信息甲骨文輔助考釋模型”。該模型將此前使用的專用模型,替換為擁有更強(qiáng)語(yǔ)義理解能力和表達(dá)能力的多模態(tài)大模型。未來(lái),他們將給AI“投喂”更多甲骨文卜辭、金文、大篆、小篆等漢字?jǐn)?shù)據(jù),訓(xùn)練多模態(tài)大模型進(jìn)行深度學(xué)習(xí),得到更多的漢字推演結(jié)果。
廈門(mén)大學(xué)信息學(xué)院教授 史曉東:原來(lái)都是孤立字的破解,其實(shí)一個(gè)字,應(yīng)用在很多上下文,它們都是語(yǔ)境相關(guān)的,所以我們也想利用這方面的信息,來(lái)建立更好的模型,來(lái)加快甲骨文的破解。
記者了解到,項(xiàng)目將綜合甲骨文的字形結(jié)構(gòu)、語(yǔ)義關(guān)聯(lián)、同音通假和聚類(lèi)分析,開(kāi)發(fā)出一套更加輕量的考釋系統(tǒng),未來(lái),使用這套系統(tǒng),不單可以手動(dòng)輸入查詢,甚至還可以上傳圖片“一鍵識(shí)圖 ” ,AI將給出卜辭原文和漢字候選結(jié)果,方便學(xué)者對(duì)照研究。
來(lái)源:廈門(mén)廣電網(wǎng)
