微軟亞洲研究院與首都師大合作開發(fā)甲骨文校重助手Div
【環(huán)球網(wǎng)科技綜合報道】甲骨文是迄今為止中國發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),對中國歷史乃至世界文化的發(fā)展研究具有非凡意義。因為收藏、流轉(zhuǎn)的緣故,大部分的甲骨都留下了多張拓本圖像,被稱為“重片”。甲骨重片數(shù)量繁多,效果互有參差,對其整理成為了一項重要的基礎(chǔ)性研究工作,稱作“校重”。然而,人工校重只能一一對照,費時費力,是甲骨文研究的一大痛點。
近期,微軟亞洲研究院主管研究員武智融與首都師范大學(xué)甲骨文研究中心莫伯峰教授團(tuán)隊合作開發(fā)甲骨文校重助手Diviner,第一次將自監(jiān)督 AI 模型引入到甲骨文“校重”工作中,大幅提升了甲骨文校重工作的效率。
這項研究系統(tǒng)窮盡比對了18萬幅拓本,輔助甲骨學(xué)家在上百個甲骨文數(shù)據(jù)庫中發(fā)現(xiàn)了大量甲骨重片,不僅復(fù)現(xiàn)了專家過去所發(fā)現(xiàn)的數(shù)萬組重片,而且經(jīng)過初步整理,已發(fā)現(xiàn)了三百多組未被前人發(fā)現(xiàn)的校重新成果,為甲骨文整理領(lǐng)域開創(chuàng)了人工智能與人類專家協(xié)作(AI+HI)的全新研究范式。
近兩年,不依賴人工標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)是 AI 研究的熱門方向,但很多前沿技術(shù)仍停留在研究階段。武智融表示,“盡管自監(jiān)督研究熱度很高,但是很多問題最終還是要通過人工數(shù)據(jù)標(biāo)注來解決。我們一直希望使用完全無標(biāo)注的數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),甚至是人工根本上無法標(biāo)注的數(shù)據(jù)。甲骨文校重需要兩兩比對十八萬張數(shù)據(jù)庫中的所有拓片,這為基于完全無標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)模型應(yīng)用提供了一個絕佳的落地場景?!?
據(jù)介紹,計算兩張拓片的視覺相似度,通常的方法會從全局特征出發(fā)。然而,在甲骨文的研究中,即使是重片,外觀上也可能有很大差異,這是由于拓印范圍、拓印方式、磨損等多方面原因造成的??紤]到一塊完整的甲骨可能會碎裂成多片,校重時經(jīng)常需要從大骨片中找出小骨片。因此,基于全局外觀表示的傳統(tǒng)方法并不能很好地發(fā)揮作用。面對這一挑戰(zhàn),研究員想到了甲骨拓片的特性,因其是從同一塊甲骨而來,重片之間存在著精確的點與點的對應(yīng)關(guān)系?;谶@一特性,校重助手 Diviner 從局部尋找匹配關(guān)系,再拓展到全局。
其中,在局部匹配方面,Diviner 使用的局部描述符是經(jīng)過自監(jiān)督訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),模型應(yīng)用了對比學(xué)習(xí)的自監(jiān)督技術(shù),使用圖像增強,讓特征在訓(xùn)練時不受甲骨拓片上清晰度、對比度、噪音、旋轉(zhuǎn)等因素的影響。在甲骨圖像上訓(xùn)練的局部描述符能夠檢測和匹配局部塊之間的關(guān)鍵點,并進(jìn)行點對點匹配。
隨后在全局優(yōu)化方面,基于密集的點與點的匹配結(jié)果,通過使用魯棒的優(yōu)化算法 RANSAC 估計全局的幾何仿射變換,仿射變換允許模型在內(nèi)容重復(fù)的情況下拼合或拼接已有圖像,這種局部到全局的方法對檢測大量的甲骨碎片至關(guān)重要。
值得一提的是,Diviner 模型一個特點是具有強大的泛化能力,這歸功于其自監(jiān)督學(xué)習(xí)的匹配算法。模型通過圖像增強技術(shù)模擬同一塊甲骨在不同時期制作成拓片或者因年深日久造成的圖像變化,例如磨損、模糊等。在大規(guī)模無標(biāo)注數(shù)據(jù)上獲取的密集的自我監(jiān)督,比稀疏的基于整體的人工監(jiān)督更有效。
此外,Diviner 模型另一個特點在于能夠精確地預(yù)測出重片之間點對點的對應(yīng)關(guān)系,并將重片拼合或拼接在一起。這種可以被專家快速解讀的結(jié)果大大方便了人類與人工智能的協(xié)同合作。對于甲骨文這樣的科學(xué),人機合作尤為重要。在校重結(jié)果中,專家可以看到局部匹配細(xì)節(jié)和重疊圖,極大地幫助并加速了他們驗證的過程。
針對該項研究,莫伯峰表示,“甲骨學(xué)是一個系統(tǒng)性的科學(xué),一方面它是一種語言文字研究資料,另一方面它是一種歷史研究資料,其研究涉及方方面面,研究者需要了解文字在古代的形、音、義等等,因此我們解決一個問題也要從不同維度探討。此次與微軟亞洲研究院的合作只是甲骨文和人工智能交叉研究的一個小序幕,推開了甲骨學(xué)研究的一扇新大門,為后續(xù)的研究起到了示范作用。未來,人工智能與古文字研究的結(jié)合將具有更廣闊的前景?!?
武智融表示,“我們很高興看到人工智能模型 Diviner 能夠為甲骨學(xué)專家節(jié)省用于甲骨文數(shù)據(jù)整理的時間,讓他們更專注于其他方面的研究。甲骨文是兼具象形圖像屬性和文字屬性的神秘語言,多模態(tài)的人工智能在甲骨文研究上有著廣闊天地。未來,我們希望能夠與甲骨文專家一起探索更多有趣的課題?!?
- 21-12-30科研人員研發(fā)出水面智能保潔無人子母船系統(tǒng) 搭載動態(tài)避
- 21-12-31迄今最輕鎂同位素誕生
- 21-12-31我國瞄準(zhǔn)智慧育種4.0時代進(jìn)發(fā)
- 21-12-30研究人員開發(fā)出可自修復(fù)鈣鈦礦太陽能電池 運行500小
- 21-12-30氣候變暖影響下,這種動物或?qū)⒚媾R“性別失調(diào)”
- 21-12-31控制調(diào)節(jié)性T細(xì)胞發(fā)育的生化“開關(guān)”找到
- 21-12-30韋布發(fā)射升空 五大天文任務(wù)可期
- 21-12-30“一不小心”活到200歲 太平洋巖魚的長壽秘訣人類可
- 21-12-31埃及法老木乃伊首次“數(shù)字化解封”
- 22-04-20超聲波為水下儀器和人體植入設(shè)備充電

