圖①:浙江湖州嘉業(yè)堂藏書(shū)樓俯瞰。
張 斌攝
圖②:山西第一期古籍修復(fù)培訓(xùn)班上,學(xué)員聽(tīng)專(zhuān)家講解相關(guān)知識(shí)。
本報(bào)記者 陳 斌攝
圖③:《永樂(lè)大典》數(shù)字高清影像庫(kù)項(xiàng)目工作人員進(jìn)行古籍?dāng)?shù)字化處理。
邵啟軒攝
圖④:《永樂(lè)大典》數(shù)字高清影像庫(kù)。
邵啟軒攝
古籍記錄歷史、傳承文化,是中華文明源遠(yuǎn)流長(zhǎng)、博大精深的表征和見(jiàn)證。隨著古籍?dāng)?shù)字化步伐的加快,實(shí)現(xiàn)全部古籍永久保存的目標(biāo)有望實(shí)現(xiàn)。越來(lái)越多收藏在圖書(shū)館里的珍貴古籍走出“象牙塔”,走進(jìn)社會(huì)大眾。古籍?dāng)?shù)字化的持續(xù)推進(jìn),讓古籍面貌煥然一新,不斷激發(fā)古籍生命力。“活起來(lái)”的古籍日益成為傳承中華優(yōu)秀傳統(tǒng)文化、堅(jiān)定文化自信的寶貴滋養(yǎng)。
古籍?dāng)?shù)字化帶來(lái)閱讀便利
什么是“天頭地腳”?什么是“象鼻”?什么是“魚(yú)尾”?……打開(kāi)識(shí)典古籍網(wǎng)站《永樂(lè)大典》數(shù)字高清影像庫(kù),點(diǎn)擊這些看起來(lái)有些陌生的名詞,《永樂(lè)大典》高清圖片上相應(yīng)的位置立刻突出顯示,直觀而形象地展現(xiàn)這部珍貴古籍的風(fēng)采。更令讀者感興趣的是,網(wǎng)頁(yè)上的《永樂(lè)大典》可以隨著鼠標(biāo)調(diào)整方向和角度,360度觀賞,仿佛是拿著真書(shū)在閱讀。
“這是我們的專(zhuān)利技術(shù),用光影變化最大限度地模擬實(shí)體書(shū)的閱讀體驗(yàn),最大限度地保存古籍原貌?!弊R(shí)典古籍項(xiàng)目產(chǎn)品負(fù)責(zé)人王宇說(shuō)。
《永樂(lè)大典》數(shù)字高清影像庫(kù)是國(guó)家圖書(shū)館承接的國(guó)家古籍?dāng)?shù)字化重點(diǎn)項(xiàng)目,由北京大學(xué)數(shù)字人文中心和字節(jié)跳動(dòng)公司共同設(shè)計(jì)研發(fā)。該項(xiàng)目第一輯收錄國(guó)家圖書(shū)館館藏《永樂(lè)大典》40冊(cè)、75卷的內(nèi)容,除呈現(xiàn)《永樂(lè)大典》高清圖像、整體風(fēng)貌及相關(guān)知識(shí)外,還嘗試對(duì)部分大典內(nèi)容做了知識(shí)標(biāo)引,為后續(xù)《永樂(lè)大典》的知識(shí)體系化、利用智能化進(jìn)行探索。
“數(shù)字化解決了存藏和使用之間的矛盾?!眹?guó)家圖書(shū)館副館長(zhǎng)、國(guó)家古籍保護(hù)中心副主任張志清說(shuō)。因古籍年代久遠(yuǎn)、極易破損,珍貴古籍的借閱有一整套嚴(yán)格的流程,普通讀者是難以接近的?!凹垑矍辍保恳淮畏喍际菍?duì)古籍的傷害?!肮偶?dāng)?shù)字化既減少了紙書(shū)的磨損,也使《永樂(lè)大典》這部寶貴文獻(xiàn)‘化身千百’‘走入尋常百姓家’,從而弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化,推動(dòng)相關(guān)學(xué)術(shù)研究,感知《永樂(lè)大典》的不朽神韻?!睆堉厩逭f(shuō)。
除了讓珍貴古籍走近普通讀者,數(shù)字化也降低了古籍的閱讀門(mén)檻。
在識(shí)典古籍網(wǎng)站和客戶端上,《論語(yǔ)》《孟子》等常見(jiàn)古籍不僅有文本,而且有古籍原本影像,圖文左右對(duì)照;有注疏和翻譯,文白對(duì)照;不僅可以閱讀,還可以檢索?!澳壳拔覀兂醪桨讶嗣?、地名和官職等實(shí)體進(jìn)行了標(biāo)注,也上線了字典釋義功能,鼠標(biāo)或手指放到不認(rèn)識(shí)的字詞上,就會(huì)顯示注釋。下一步還要把實(shí)體標(biāo)注與百科詞條鏈接起來(lái),遇到不懂的問(wèn)題,點(diǎn)擊即可呈現(xiàn)詳細(xì)解釋。”王宇說(shuō),通過(guò)數(shù)字化降低古籍閱讀門(mén)檻,可以讓更多讀者親近古籍,感受中華優(yōu)秀傳統(tǒng)文化的魅力。
作為面向大眾的公益性古籍?dāng)?shù)字化平臺(tái),目前識(shí)典古籍已上線古籍1600余部,免費(fèi)對(duì)公眾開(kāi)放。讀者對(duì)于數(shù)字化的古籍表現(xiàn)出很高的閱讀熱情,短短數(shù)月,識(shí)典古籍累計(jì)用戶數(shù)已超過(guò)1240萬(wàn)。
面向?qū)I(yè)用戶的古籍?dāng)?shù)據(jù)庫(kù)建設(shè)步伐也在加快。中華書(shū)局下屬古籍?dāng)?shù)字化企業(yè)古聯(lián)公司開(kāi)發(fā)的古籍整理出版資源平臺(tái)籍合網(wǎng),自2018年上線以來(lái),已發(fā)布數(shù)據(jù)庫(kù)31個(gè),涵蓋專(zhuān)業(yè)古籍整理出版資源20億字,石刻資源5萬(wàn)余篇,歷代登科人物10萬(wàn)余條,木版年畫(huà)18000余幅,書(shū)法作品10000余種,甲骨文卜辭143856條,總計(jì)字符30多億。
自2012年以來(lái),我國(guó)古籍事業(yè)進(jìn)入新時(shí)代,古籍?dāng)?shù)字化不斷提速。2022年4月,中共中央辦公廳、國(guó)務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時(shí)代古籍工作的意見(jiàn)》,明確提出“推進(jìn)古籍?dāng)?shù)字化”,強(qiáng)調(diào)“支持古籍?dāng)?shù)字化重點(diǎn)單位做強(qiáng)做優(yōu),加強(qiáng)古籍?dāng)?shù)字化資源管理和開(kāi)放共享?!薄兑庖?jiàn)》進(jìn)一步激發(fā)了相關(guān)單位古籍?dāng)?shù)字化的動(dòng)力,以大型圖書(shū)館為主體的公藏單位普遍開(kāi)展了古籍?dāng)?shù)字化工作。
今年9月,國(guó)家圖書(shū)館組織第八次古籍?dāng)?shù)字資源聯(lián)合發(fā)布,新增發(fā)布古籍資源1672部(件)。至此,全國(guó)累計(jì)發(fā)布古籍及特藏文獻(xiàn)影像資源達(dá)13萬(wàn)余部(件)。
不過(guò),在快速發(fā)展的同時(shí),古籍?dāng)?shù)字化還存在薄弱之處。據(jù)統(tǒng)計(jì),我國(guó)現(xiàn)存古籍約20萬(wàn)種5000多萬(wàn)冊(cè)(件),但實(shí)現(xiàn)數(shù)字化的不超過(guò)8萬(wàn)種,大多數(shù)所謂數(shù)字化古籍只是完成了初步的影像掃描,真正實(shí)現(xiàn)文本數(shù)字化的不足4萬(wàn)種。
古籍?dāng)?shù)字化專(zhuān)家呂亞峰說(shuō),古籍影像掃描是古籍?dāng)?shù)字化的基礎(chǔ),但影像無(wú)法檢索;只有數(shù)字化文本才可以檢索,便于研究、閱讀和傳播。因此,今后古籍?dāng)?shù)字化工作應(yīng)把重點(diǎn)放在古籍文本的數(shù)字化上。“現(xiàn)在有了人工智能等先進(jìn)技術(shù),加速實(shí)現(xiàn)全部古籍的數(shù)字化已經(jīng)具備了條件?!眳蝸喎逭f(shuō)。
“如果現(xiàn)存古籍全部數(shù)字化,那么我國(guó)古籍保護(hù)就邁上了一個(gè)新臺(tái)階,古籍滅失的可能性就大幅降低了。這對(duì)于賡續(xù)中華文脈,將是一個(gè)了不起的貢獻(xiàn)?!睆堉厩逭f(shuō),“我們所處的新時(shí)代,有史以來(lái),中華民族第一次有可能實(shí)現(xiàn)文化典籍永久保護(hù)和傳承?!?/P>
古籍?dāng)?shù)字化進(jìn)入人工智能時(shí)代
將古籍高清影像上傳服務(wù)器,點(diǎn)擊自動(dòng)識(shí)別按鈕,只見(jiàn)古籍影像上立刻出現(xiàn)一個(gè)個(gè)不斷閃動(dòng)的格子,自動(dòng)套住圖片上的每個(gè)字,相應(yīng)的文字就按照古籍上文字的排列順序出現(xiàn)在頁(yè)面。這一過(guò)程不過(guò)數(shù)秒。
“人工智能在古籍?dāng)?shù)字化中的應(yīng)用有效提升了古籍整理的效率?!惫怕?lián)公司總經(jīng)理洪濤說(shuō),以籍合網(wǎng)OCR(光學(xué)字符識(shí)別技術(shù))識(shí)別為例,5分鐘的OCR識(shí)別相當(dāng)于人工錄入20小時(shí)的工作量,而且錯(cuò)誤可以降低75%?!斑@對(duì)傳統(tǒng)紙本古籍整理效率的提升是巨大的,”洪濤說(shuō),人工智能解決了大型古籍整理項(xiàng)目耗時(shí)耗力、過(guò)久過(guò)多的現(xiàn)狀。
以西泠印社“刻在石頭上的浙江”系列叢書(shū)為例,古聯(lián)公司編輯部參與了包括《東甌金石志》等在內(nèi)的9種金石類(lèi)古籍的整理,共計(jì)約147萬(wàn)字。在整理過(guò)程中,全流程利用智能整理技術(shù)輔助工作。首先用OCR識(shí)別底本文字,然后采用線上眾包模式開(kāi)展底本校對(duì)工作。校對(duì)后的稿件通過(guò)自動(dòng)標(biāo)點(diǎn)功能進(jìn)行標(biāo)點(diǎn),標(biāo)點(diǎn)后的稿件再交由編輯進(jìn)行??焙屯ㄗx審稿。在這種工作模式下,編輯部?jī)H用時(shí)4個(gè)月就完成了全部稿件的整理工作和部分編輯工作。“這樣的速度在以前是不可想象的,只有在人工智能時(shí)代才能成為現(xiàn)實(shí)?!焙闈f(shuō)。
人工智能正在變得越來(lái)越“聰明”,現(xiàn)在對(duì)版刻本的識(shí)別準(zhǔn)確率可達(dá)98%。即使對(duì)行夾注、眉批、行間批注、表格等不規(guī)則的古籍版面,不僅能準(zhǔn)確識(shí)別文字,還能通過(guò)針對(duì)性訓(xùn)練優(yōu)化分區(qū)效果,從而避免出現(xiàn)雖然單字識(shí)別正確,但閱讀順序顛倒錯(cuò)亂不能復(fù)用的情況。
以往給古籍?dāng)嗑浜图訕?biāo)點(diǎn),需要經(jīng)驗(yàn)豐富的專(zhuān)業(yè)人士手動(dòng)進(jìn)行。但現(xiàn)在人工智能可以實(shí)現(xiàn)機(jī)器自動(dòng)斷句、自動(dòng)標(biāo)點(diǎn)。洪濤介紹,目前研發(fā)的自動(dòng)標(biāo)點(diǎn)技術(shù),斷句準(zhǔn)確率平均達(dá)到98.46%,標(biāo)點(diǎn)準(zhǔn)確率達(dá)到93.94%,專(zhuān)名線書(shū)名線自動(dòng)標(biāo)注準(zhǔn)確率達(dá)到92.15%,標(biāo)點(diǎn)標(biāo)線后的古籍文本更方便閱讀、理解和研究。
“如果人工智能不介入,完全依靠人力,古籍?dāng)?shù)字化全部完成可能還需要上百年的時(shí)間,但有了人工智能,完成全部古籍的數(shù)字化也許只要二三十年。我們對(duì)此有信心。”王宇舉例說(shuō),百衲本《二十四史》將近4000萬(wàn)字,但利用人工智能,識(shí)典古籍北大整理團(tuán)隊(duì)僅用3個(gè)多月就完成了識(shí)別、點(diǎn)校、上線發(fā)布。
盡管經(jīng)過(guò)人工智能處理的古籍文本準(zhǔn)確率已經(jīng)很高,但依然需要人工核校。特別是一些異體字、冷僻字,以及特殊格式的古籍,更是離不開(kāi)專(zhuān)業(yè)古籍工作者的核校。
“人工智能并不能完全取代人,人工智能的優(yōu)勢(shì)在速度,而人的優(yōu)勢(shì)在精確和創(chuàng)造性。通過(guò)人機(jī)協(xié)同、人機(jī)互補(bǔ),可以大幅提高古籍整理出版的效率和質(zhì)量。而高質(zhì)量的、學(xué)術(shù)性的古籍整理工作依然需要專(zhuān)家學(xué)者長(zhǎng)期不懈的努力,不可能被計(jì)算機(jī)所替代。”洪濤說(shuō)。
古籍整理進(jìn)入大眾化時(shí)代
古籍整理是專(zhuān)業(yè)性很強(qiáng)的工作,但在人工智能高速發(fā)展的今天,古籍愛(ài)好者也可以參與古籍整理。其流程大致是這樣的——
經(jīng)過(guò)人工智能處理的古籍文本,通過(guò)互聯(lián)網(wǎng)分發(fā)給在線編校人員,后者在電腦上對(duì)照古籍底本高清圖像,逐字逐句審閱,并在古籍整理平臺(tái)上修改。管理員借助平臺(tái)的版本比對(duì)功能審閱修改記錄,判斷是否合格。
古聯(lián)公司建立的全國(guó)第一個(gè)古籍整理眾包平臺(tái)正是這樣運(yùn)作的。從2018年上線以來(lái),籍合網(wǎng)古籍整理眾包平臺(tái)積累了近5000人的在線古籍編校隊(duì)伍。這些在線古籍編校者絕大多數(shù)都是業(yè)余人士,有大學(xué)生、圖書(shū)編輯、律師、教師,也有公務(wù)員、金融界人士、自由職業(yè)者等。愛(ài)好文史、熟悉互聯(lián)網(wǎng)是他們的共同特征。
全書(shū)近2億字的《中華大藏經(jīng)·續(xù)編》通過(guò)眾包模式,在全球900多位業(yè)余審校者的參與下,僅用時(shí)兩年就完成了兩個(gè)校次的底本校對(duì)與審核工作。“古籍整理眾包工作模式不僅解決了大型古籍整理項(xiàng)目在人力方面的需求,更重要的是解決了地域限制和個(gè)體時(shí)間分散、隨意的難題,使人力和時(shí)間都得到了充分的利用。”洪濤說(shuō)。
“青年一代對(duì)中華傳統(tǒng)文化的認(rèn)知和熱愛(ài),是推動(dòng)古籍事業(yè)高質(zhì)量發(fā)展的重要推力?!睆堉厩逭f(shuō)。
目前,一支2300余人的古籍志愿者隊(duì)伍活躍在字節(jié)跳動(dòng)公司。每次識(shí)典古籍發(fā)布古籍審校任務(wù),志愿者們就會(huì)在群里認(rèn)領(lǐng),往往是“秒光”。手速稍慢,任務(wù)就被人領(lǐng)走了。
古籍志愿者許黧丹參與了《茶苑》和《雞足山志》兩部古籍的文字校對(duì)和結(jié)構(gòu)整理任務(wù)?!坝H自參與,大受震撼,完全顛覆了我的認(rèn)知。原來(lái),只是輕輕滑動(dòng)鼠標(biāo)就能瀏覽到的內(nèi)容,背后凝結(jié)著這么多復(fù)雜的步驟和這么多人的心血。”許黧丹說(shuō),“除了為古籍?dāng)?shù)字化做出自己的微薄貢獻(xiàn),還結(jié)交了志同道合的朋友,自己也增長(zhǎng)了不少見(jiàn)識(shí)。我們都在期待下一次的古籍整理任務(wù)了?!?/P>
在人工智能的幫助下,未來(lái)的古籍?dāng)?shù)字化還會(huì)有怎樣的進(jìn)展?
洪濤認(rèn)為,目前的古籍?dāng)?shù)字化僅僅是一個(gè)開(kāi)始,未來(lái)可以利用人工智能進(jìn)行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。而更重要的是,利用人工智能開(kāi)發(fā)古籍,用古籍蘊(yùn)含的浩瀚素材創(chuàng)作生成內(nèi)容。
“比如,創(chuàng)作一部歷史題材的影視劇就可以讓人工智能從古籍里尋找相關(guān)素材,自動(dòng)生成故事。創(chuàng)作者在此基礎(chǔ)上繼續(xù)修改。這個(gè)過(guò)程不斷循環(huán),就能創(chuàng)作出高質(zhì)量的作品。我們離這一天已經(jīng)越來(lái)越近了。從這個(gè)意義上說(shuō),中華古籍是一座寶藏?!焙闈f(shuō)。
版式設(shè)計(jì):汪哲平
《 人民日?qǐng)?bào) 》( 2023年10月03日 07 版)