中國幾千年輝煌的華夏文明,留下了海量的古籍文獻資料,這些文字記錄承載著豐富的歷史信息和文化傳承。其中,根據《滇川黔桂彝文字集》,在民間流通使用的原生態彝文——“古彝文”就多達87046字。作為一門“瀕臨”消亡的語言,其典籍的數字化之路也面臨著巨大的挑戰。
近期,合合信息聯合上海大學、華南理工大學發布業內首個古彝文基礎編碼數據庫,針對現有的《西南彝志》、云貴一帶字符,以智能圖像處理、智能文字識別等AI技術,對七萬多個字符開展統一編碼并編制成精簡的字典,幫助人們降低古彝文書籍、文獻閱讀的門檻,是古文字數字化的重要成果之一。
古彝文典籍編碼、識別過程(圖源:西南彝志)
據了解,本次構建古彝文基礎編碼數據庫建設中的學術性、技術性難點主要有兩個方面:一方面是文字符集龐大,且缺乏成熟的手寫樣本庫,異體字、變體字豐富,字符和釋義呈“一對多、多對一”的常態;其次是文字大多被記錄在巖書、布書、竹簡等不利于潮濕環境儲存的材質上,造成模糊不清或殘缺不全,難以直接完整提取字符信息。
圖像處理對于文檔處理中所涉及的文字識別等后續流程非常關鍵,構建古彝文“大字典”需要解決的首要問題就是在文字識別之前的低質量圖片資料處理。在古彝文語料收集過程中,研究團隊選取合合信息旗下的智能掃描產品“掃描全能王”作為古籍圖片采集工具。
掃描全能王“智能高清濾鏡”古籍掃描效果(圖源:西南彝志)
掃描全能王的“智能高清濾鏡”功能基于AI技術及智能掃描引擎,自動檢測圖像中存在的問題,智能判定圖像的優化方式,實現模糊、陰影、手指、屏幕紋等干擾因素一鍵處理。對于污漬、殘破的彝文古籍,只需用“智能高清濾鏡”輕輕一掃,即可得到一張清晰、平整的圖片,減輕后續圖片處理工作,縮短內容識別、編碼的操作周期。
值得一提的是,合合信息在智能文字識別領域已有多年深耕經驗。此前公司已在AI識別甲骨文、西周鐘鼎文(金文)領域進行了領先的探索和研究,為此次古彝文識別工作積累了重要經驗,并奠定了良好的技術基礎。其相關項目曾獲得央視、新華社、《人民日報》等多家主流媒體的關注。
文化數據要素和人工智能技術的融合,已經成為文化保護與傳承的新途徑,合合信息在未來也將繼續用技術服務,讓更多優秀文明成果被看見,推動文化數字化戰略的有效實施和文化產業的高質量發展。
(新媒體責編:wa12)
聲明:
1、凡本網注明“人民交通雜志”/人民交通網,所有自采新聞(含圖片),如需授權轉載應在授權范圍內使用,并注明來源。
2、部分內容轉自其他媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
3、如因作品內容、版權和其他問題需要同本網聯系的,請在30日內進行。電話:010-67683008
人民交通24小時值班手機:17801261553 商務合作:010-67683008轉602 E-mail:zzs@rmjtzz.com
Copyright 人民交通雜志 All Rights Reserved 版權所有 復制必究 百度統計 地址:北京市豐臺區南三環東路6號A座四層
增值電信業務經營許可證號:京B2-20201704 本刊法律顧問:北京京師(蘭州)律師事務所 李大偉
京公網安備 11010602130064號 京ICP備18014261號-2 廣播電視節目制作經營許可證:(京)字第16597號