“頔”寓意美好、“燊”表示熾盛、“鋆”意為金子……古籍里的這些生僻字,曾因無法輸入電腦,給文化傳承、學術研究,乃至人們日常生活帶來不便。數字時代,如何讓漢語言文字更完整地活躍在“云”端?
日前,教育部圍繞推進語言文字信息化發(fā)展舉辦新聞發(fā)布會?!皬摹U與火’到‘光與電’,中文信息處理技術不斷創(chuàng)新發(fā)展?!北本┐髮W王選研究所所長湯幟介紹,北京大學作為國家語委中文文字字體設計與研究中心的依托單位,設計開發(fā)國家重大基礎性規(guī)范《通用規(guī)范漢字表》的配套字庫,研制人口信息生僻字超大字庫解決方案,在第二代居民身份證、護照上應用,協(xié)助解決銀行、稅務等社會應用系統(tǒng)的人名、地名缺字問題。
語言文字信息化是經濟社會信息化的重要組成部分,是數字中國建設的基礎性工作。記者了解到,近年來,教育部聯合有關部門發(fā)布了國家通用語言文字和民族語言文字信息化規(guī)范標準100多項,推動建成國家語委媒體語言語料庫、冬奧會多語言術語庫等,上線國家語言資源服務平臺、中國語言文字數字博物館等,持續(xù)推動語言文化資源共建共享。
隨著智慧化學習的廣泛開展,語言文化優(yōu)質資源惠及更多人。教育部語言文字信息管理司司長劉培俊介紹,為推進語教融合,教育部打造“中華經典資源庫”,總瀏覽量超6000萬;打造“中小學語文示范誦讀庫”,惠及全國約1.6億中小學生和上千萬教師及社會大眾;上線中國語言文字數字博物館,收納海量資源,構建全民學習新課堂。
此外,數智賦能也讓國家通用語言文字推廣普及效率不斷提升。目前,普通話測試方式已實現從人工到智能的轉變,機輔測試已服務超過9200萬人次。廣東省教育廳副廳長朱建華介紹:“我們支持研發(fā)普通話水平智能測試艙、聲紋分析系統(tǒng)等,打造了全國首個以智能化為核心的普通話水平測試智慧考場,能夠做到‘隨到隨考’?!?/p>
語言文字信息化讓古籍里的文字展現出新的活力。打開“AI太炎”古漢語大語言模型,輸入待分析的古籍文本,系統(tǒng)便能根據用戶選擇進行釋讀,包括字詞釋義、文白翻譯、句讀標點、用典分析等。北京師范大學黨委常委、副校長康震介紹,“‘AI太炎’依靠自主可控、安全可信的技術路線,理解力強、準確率高,能夠高質量完成多種文言文理解任務,目前已廣泛應用于學術科研、基礎教育、編輯出版等多個領域。”
近日,教育部、國家語委、中央網信辦共同印發(fā)《關于加強數字中文建設 推進語言文字信息化發(fā)展的意見》。意見提出創(chuàng)新應用自然語言處理、大語言模型、多模態(tài)信息處理、知識圖譜、語料加工等5項前沿技術。
“我們要將數字中文建設作為全面推進語言文字信息化發(fā)展的突出重點,服務大語言模型等人工智能技術創(chuàng)新應用‘制高點’,夯實國家關鍵語料基礎設施‘新基建’,全方位釋放語言文字在經濟社會發(fā)展中的數據要素價值。”劉培俊說。
《 人民日報 》( 2025年04月09日 04 版)
(責任編輯:梁艷)