應(yīng)該如何閱讀古籍?人們通常認(rèn)為,,閱讀古籍要選擇合適的版本,,了解歷史背景知識(shí),借助注釋和工具書(shū),,對(duì)照其他相關(guān)文獻(xiàn),,才能更好地體會(huì)古籍的獨(dú)特之處。然而,,事實(shí)上,,“找不到、不會(huì)用,、讀不懂”是人們閱讀古籍時(shí)面臨的常見(jiàn)情況,。隨著人工智能技術(shù)的發(fā)展,這些問(wèn)題正在慢慢解決,。近日,,在字節(jié)跳動(dòng)研發(fā)的“識(shí)典古籍”數(shù)字化平臺(tái)上,讀者多了“古籍智能助手”的選項(xiàng)——選中讀不懂的古文原文點(diǎn)擊“問(wèn)AI”,就可以看到這句話(huà)的翻譯,,并可以用日常說(shuō)話(huà)的方式,,讓智能助手總結(jié)文本內(nèi)容,提出可供參考的研究問(wèn)題,??梢钥吹剑偶悄苤纸档土斯偶拈喿x門(mén)檻,,讓流傳千百年的寶貴文獻(xiàn)走入尋常百姓家,。事實(shí)上,以古籍智能助手為代表的人工智能工具還有更長(zhǎng)遠(yuǎn)的價(jià)值——在讓更多讀者親近古籍的同時(shí),為古籍?dāng)?shù)字化工作帶來(lái)了機(jī)遇,,“我們所處的新時(shí)代,,有可能實(shí)現(xiàn)文化典籍永久保護(hù)和傳承?!睒I(yè)內(nèi)人士表示,。識(shí)典古籍相關(guān)海報(bào)讓大模型更會(huì)檢索在字節(jié)跳動(dòng)看來(lái),古籍智慧助手上線(xiàn)有賴(lài)于近年來(lái)人工智能技術(shù)的爆發(fā)式發(fā)展,。2022年3月,,字節(jié)跳動(dòng)向北大教育基金會(huì)提供捐贈(zèng),全面支持“北京大學(xué)-字節(jié)跳動(dòng)數(shù)字人文開(kāi)放實(shí)驗(yàn)室”的工作,。彼時(shí),,字節(jié)跳動(dòng)計(jì)劃研發(fā)古籍?dāng)?shù)字化平臺(tái),利用智能技術(shù)加速中華古籍資源的數(shù)字化建設(shè),,向全社會(huì)提供公益化服務(wù),。如今,,“識(shí)典古籍”數(shù)字化平臺(tái)已上線(xiàn),免費(fèi)開(kāi)放古籍超過(guò)2900部,。目前“識(shí)典古籍”平臺(tái)為方便用戶(hù)的檢索和閱讀,,已上線(xiàn)了全文和分類(lèi)檢索、字典,、古籍譯文,、命名實(shí)體查閱百科等功能。然而,,“識(shí)典古籍”數(shù)字化平臺(tái)研發(fā)團(tuán)隊(duì)發(fā)現(xiàn),,雖然平臺(tái)內(nèi)輔助工具繁多,但是用戶(hù)的需求依然沒(méi)有被精準(zhǔn)滿(mǎn)足——“找不到,、不會(huì)用”成為用戶(hù)使用古籍閱讀工具時(shí)的一大難關(guān),。“大模型技術(shù)發(fā)展以后,,我們開(kāi)始自然而然地思考,,對(duì)于用戶(hù)來(lái)說(shuō),利用人工智能,,以對(duì)答的方式和數(shù)字化平臺(tái)進(jìn)行交互,,會(huì)不會(huì)是更好的體驗(yàn),?”“識(shí)典古籍”數(shù)字化平臺(tái)產(chǎn)品經(jīng)理汪晴表示,,“我們希望為研究和檢索古籍提供便利?!被谠贠CR(文字識(shí)別技術(shù)),、自然語(yǔ)言處理、知識(shí)圖譜等技術(shù)領(lǐng)域的積累,,以及互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)與研發(fā)優(yōu)勢(shì),,研發(fā)團(tuán)隊(duì)很快對(duì)古籍智能助手有了初步的設(shè)想:打造一款能夠幫助用戶(hù)檢索、閱讀,,甚至深入挖掘古籍知識(shí)的工具,。然而,古籍智能助手只是一個(gè)具有實(shí)驗(yàn)性的新事物,,當(dāng)初的期待想要落地還需要長(zhǎng)久地摸索,。研發(fā)團(tuán)隊(duì)首先想到的是利用大模型為用戶(hù)帶來(lái)額外的驚喜。于是,,經(jīng)過(guò)了多輪的磨合和探索,,字節(jié)跳動(dòng)研發(fā)團(tuán)隊(duì)決定將研發(fā)的重點(diǎn)放在檢索增強(qiáng)生成技術(shù)上?!白R(shí)典古籍”數(shù)字化平臺(tái)產(chǎn)品負(fù)責(zé)人王宇介紹,,檢索增強(qiáng)生成技術(shù)是通過(guò)檢索不同資料來(lái)源,,獲得所需上下文,來(lái)“增強(qiáng)”大模型生成答案的質(zhì)量,。比如從古籍?dāng)?shù)據(jù)庫(kù)里檢索古籍資料,,讓獲得的上下文更加相關(guān)。在關(guān)鍵詞檢索之外,,研發(fā)團(tuán)隊(duì)還開(kāi)發(fā)了語(yǔ)義檢索,,讓智能助手在回答時(shí)能參考到雖然文字不一樣、但含義相關(guān)的相關(guān)古籍段落,。這也讓古籍智能助手和市場(chǎng)中已有的通用大模型形成了差異,。“古籍智能助手并不是靠前期訓(xùn)練時(shí)使用的數(shù)據(jù)和知識(shí)進(jìn)行解答,,而是實(shí)時(shí)調(diào)動(dòng)較新的專(zhuān)業(yè)數(shù)據(jù)庫(kù),,這是通用大模型難以做到的?!蓖羟缯f(shuō),,“我們希望古籍智能助手是具備專(zhuān)業(yè)度的?!痹鰪?qiáng)問(wèn)答準(zhǔn)確性古籍智能助手的研發(fā)也并非一帆風(fēng)順,。對(duì)于字節(jié)跳動(dòng)研發(fā)團(tuán)隊(duì)來(lái)說(shuō),最大的難點(diǎn)莫過(guò)于大模型會(huì)產(chǎn)生錯(cuò)誤和“幻覺(jué)”,。產(chǎn)生“幻覺(jué)”幾乎是大語(yǔ)言模型的“通病”,。有學(xué)者曾指出,這種“幻覺(jué)”是指人工智能會(huì)生成貌似合理連貫,,但同輸入問(wèn)題意圖不一致,、同世界知識(shí)不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無(wú)法驗(yàn)證的內(nèi)容,。有專(zhuān)家認(rèn)為,,從技術(shù)原理上看,人工智能“幻覺(jué)”多由于人工智能對(duì)知識(shí)的記憶不足,、理解能力不足,、訓(xùn)練方式固有的弊端及模型本身技術(shù)的局限性導(dǎo)致。而現(xiàn)階段,,大模型產(chǎn)生錯(cuò)誤“幻覺(jué)”的情況難以完全消除,。然而,在古籍領(lǐng)域,,基于文言文可能出現(xiàn)的閱讀障礙,,由大模型產(chǎn)生的錯(cuò)誤和“幻覺(jué)”讓用戶(hù)更加難以分辨。但是即便如此,,字節(jié)跳動(dòng)研發(fā)團(tuán)隊(duì)依然希望能盡可能減少“幻覺(jué)”,,并讓用戶(hù)在希望追求準(zhǔn)確性的時(shí)候,,能夠進(jìn)行查證。相關(guān)負(fù)責(zé)人表示,,為了減少大模型產(chǎn)生的“幻覺(jué)”,,團(tuán)隊(duì)付出了巨大的努力:一方面,古籍智能助手使用了檢索增強(qiáng)生成技術(shù),,這樣就要求大模型根據(jù)從數(shù)據(jù)庫(kù)和字典中檢索到的,、有一定可靠性的資料作答,在一定程度上限制了大模型產(chǎn)生“幻覺(jué)”,;另一方面,,研發(fā)團(tuán)隊(duì)正在嘗試在生成的答案后附加原文鏈接,這樣對(duì)于寫(xiě)作等場(chǎng)合,,用戶(hù)就可以方便地去原文查證并且做出自己的判斷,。不僅如此,在古籍智能助手的界面,,研發(fā)團(tuán)隊(duì)還設(shè)置了“回答由人工智能生成,,請(qǐng)注意查證”的提示詞?!肮偶悄苤值淖饔檬翘嵘殚喒偶男?。它代替不了專(zhuān)業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍的人節(jié)約時(shí)間,、開(kāi)拓新的思路,。”王宇表示,。在減少大模型“幻覺(jué)”的基礎(chǔ)上,,古籍智能助手最終還是上線(xiàn)與用戶(hù)見(jiàn)面。在“識(shí)典古籍”數(shù)字化平臺(tái),,當(dāng)用戶(hù)選中古籍中的文字并點(diǎn)擊“問(wèn)AI”,或者輸入問(wèn)題時(shí),,古籍智能助手首先會(huì)對(duì)用戶(hù)提出的問(wèn)題進(jìn)行意圖判斷,,如果回答這個(gè)問(wèn)題需要利用字典中的條目或者古籍?dāng)?shù)據(jù)庫(kù)搜索結(jié)果作為上下文,智能助手會(huì)獲取相關(guān)的上下文,,然后通過(guò)大語(yǔ)言模型綜合總結(jié)并給出回復(fù),。汪晴稱(chēng),古籍智能助手上線(xiàn)幾周后得到了較好的反饋,?!昂芏嘤脩?hù)通過(guò)智能助手去理解句子含義,幫助用戶(hù)實(shí)現(xiàn)了從‘不懂’到‘懂’的跨越,。不僅如此,,展示參考引用的功能也受到了用戶(hù)的好評(píng),。雖然目前古籍智能助手還無(wú)法將參考引用完全展示,但依然有用戶(hù)表示對(duì)發(fā)現(xiàn)之前忽略的知識(shí)有幫助,?!弊尮爬辖?jīng)典“活”起來(lái)、傳下去雖然古籍智能助手已經(jīng)上線(xiàn)運(yùn)行,,但是研發(fā)團(tuán)隊(duì)并沒(méi)有停下探索的腳步,。汪晴表示,在功能方面,,正在計(jì)劃逐步為古籍助手提供更多的工具,,比如是否能從百科資料中檢索答案,是否能和一些更加專(zhuān)業(yè)的數(shù)據(jù)庫(kù)進(jìn)行合作,?!拔覀円蚕M脩?hù)能夠多使用和反饋,為后續(xù)優(yōu)化提供建議,,通過(guò)實(shí)踐和應(yīng)用來(lái)打磨出好的產(chǎn)品,。”在汪晴看來(lái),,這種探索為閱讀古籍的用戶(hù)提供了便利,,也拉近了公眾和古籍之間的距離,讓經(jīng)典更加觸手可及,?!斑@也是古籍智能助手給‘識(shí)典古籍’數(shù)字化平臺(tái)帶來(lái)的較為突出的價(jià)值?!睒I(yè)內(nèi)普遍認(rèn)為,,將大模型和人工智能引入古籍保護(hù)領(lǐng)域是時(shí)代帶來(lái)的便利。今年全國(guó)兩會(huì)期間,,有委員表示,,中國(guó)是全球擁有古籍最多的國(guó)家,國(guó)內(nèi)現(xiàn)存漢文古籍300萬(wàn)部,,散落在海外的古籍超過(guò)40萬(wàn)部,,已完成數(shù)字化的古籍7.4萬(wàn)部??梢钥吹?,還有大量的古籍被束之高閣。不僅如此,,對(duì)于古籍來(lái)說(shuō),,修復(fù)的速度遠(yuǎn)遠(yuǎn)趕不上老化的速度,古籍?dāng)?shù)字化迫在眉睫,。對(duì)此,,王宇認(rèn)為,,大規(guī)模解決古籍?dāng)?shù)字化的問(wèn)題只能等待技術(shù)進(jìn)步,而近十年,,大模型和人工智能的飛速發(fā)展剛好為加速實(shí)現(xiàn)全部古籍?dāng)?shù)字化帶來(lái)了技術(shù)條件,。“如果現(xiàn)存古籍全部數(shù)字化,,那么我國(guó)古籍保護(hù)就邁上了一個(gè)新臺(tái)階,,古籍滅失的可能性就大幅降低了。這對(duì)于賡續(xù)中華文脈,,將是一個(gè)了不起的貢獻(xiàn),。”有學(xué)者表示,。文/李濛
古籍智能助手寬屏模式頁(yè)面截圖(來(lái)源:北京日?qǐng)?bào))
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1092423.html
溫馨提示:投資有風(fēng)險(xiǎn),入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。