來(lái)源:IT168企業(yè)級(jí)頻道
摘要:長(zhǎng)期以來(lái),,很多金融機(jī)構(gòu)的數(shù)據(jù)治理效果一直不盡人意,這已經(jīng)成為金融科技公認(rèn)的重要需求與固有難題。以大模型為代表的新一代人工智能有望徹底改變這種狀態(tài),,它通過(guò)以自然語(yǔ)言而非專(zhuān)業(yè)技術(shù)驅(qū)動(dòng)的人機(jī)交互界面,,以及對(duì)人類(lèi)專(zhuān)業(yè)經(jīng)驗(yàn)與流程執(zhí)行效果的良好模擬,能有效解決傳統(tǒng)數(shù)據(jù)治理體系與工程中的諸多難點(diǎn),,大力推動(dòng)人工治理走向自主“智”理,,并最終形成新一代的金融數(shù)據(jù)體系,。
1.前言
數(shù)據(jù)治理長(zhǎng)年以來(lái)一直是最重要的金融科技領(lǐng)域之一,,從本世紀(jì)初金融機(jī)構(gòu)開(kāi)始實(shí)施企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)(EDW)開(kāi)始就一直被持續(xù)關(guān)注,,并不斷進(jìn)行著相關(guān)的建設(shè)與改進(jìn)活動(dòng),包括數(shù)據(jù)標(biāo)準(zhǔn),、數(shù)據(jù)質(zhì)量,、元數(shù)據(jù)管理工程、相關(guān)的咨詢(xún)規(guī)劃等工作,,以及近十幾年來(lái)隨著大數(shù)據(jù)技術(shù)普及而興起的數(shù)據(jù)中臺(tái),、數(shù)據(jù)資產(chǎn)管理等,都屬于數(shù)據(jù)治理的范疇或者與之緊密相關(guān),。同時(shí),,數(shù)據(jù)治理長(zhǎng)年以來(lái)也是金融科技系統(tǒng)中最為尷尬的難題。它不像很多業(yè)務(wù)目標(biāo)非常清晰項(xiàng)目與產(chǎn)品實(shí)施,,效果立桿見(jiàn)影,。對(duì)大部分金融機(jī)構(gòu)來(lái)講,數(shù)據(jù)治理一直處于這樣的境況:數(shù)據(jù)治理狀態(tài)不好一直確切地影響著業(yè)務(wù)質(zhì)效,,因此不斷受到重視,;數(shù)據(jù)治理項(xiàng)目長(zhǎng)年持續(xù)實(shí)施,,可帶來(lái)的效果總是與預(yù)期不付,。例如咨詢(xún)規(guī)劃相當(dāng)多起了高調(diào),后續(xù)落實(shí)不力,;數(shù)據(jù)標(biāo)準(zhǔn)項(xiàng)目往往形成了全面一致的本子,,但卻難以大范圍切實(shí)推廣;數(shù)據(jù)質(zhì)量工具與流程不斷引進(jìn),,但數(shù)據(jù)質(zhì)量問(wèn)題一直不能得到上下,、內(nèi)外一致順暢的解決;元數(shù)據(jù)管理往往限于一域,,企業(yè)級(jí)水平很難達(dá)到,;數(shù)據(jù)資產(chǎn)、數(shù)據(jù)中臺(tái)等本質(zhì)上也都是為了讓業(yè)務(wù)更方便地使用數(shù)據(jù)而建設(shè)的新孤島,,對(duì)數(shù)據(jù)治理水平并沒(méi)有實(shí)際的提升…..,。總之,,相當(dāng)部分金融機(jī)構(gòu)的數(shù)據(jù)治理工作就是長(zhǎng)期處于這樣一直在努力,、一直不滿(mǎn)意的尷尬狀態(tài)中。
仔細(xì)分析就可以發(fā)現(xiàn),,金融數(shù)據(jù)治理的這種狀態(tài)其實(shí)是正常并且合乎邏輯的,,也就是說(shuō),,如果沒(méi)有什么明顯的驅(qū)動(dòng)力,大概率大家會(huì)一直這樣持續(xù)下去,。為什么呢,?數(shù)據(jù)治理與實(shí)施具有明確業(yè)務(wù)目標(biāo)的項(xiàng)目不同,除了技術(shù)與工具之外,,它很大程度上都依賴(lài)于“人”,,這包括人的經(jīng)驗(yàn),人的手工,,人對(duì)流程的執(zhí)行力,、配合度等。例如,,對(duì)數(shù)據(jù)質(zhì)量問(wèn)題,,工具往往只能通過(guò)規(guī)則協(xié)助發(fā)現(xiàn)問(wèn)題,卻不能解決問(wèn)題,,解決問(wèn)題需要靠人的經(jīng)驗(yàn)與精力,;數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行,也需要自頂而下,、各平行部門(mén)的人配合協(xié)調(diào)執(zhí)行流程,;數(shù)據(jù)處理中的標(biāo)注、分類(lèi),,元數(shù)據(jù)的填充,、生成等也主要依靠人工。這些都還只是一些典型的問(wèn)題,,更不說(shuō)如何能從數(shù)據(jù)資源中發(fā)現(xiàn)更深更廣層次的關(guān)聯(lián)知識(shí),,如何從現(xiàn)有數(shù)據(jù)中產(chǎn)生有更廣泛用途的增強(qiáng)數(shù)據(jù)等數(shù)據(jù)治理的高階提升,不依靠人工就更加無(wú)法實(shí)現(xiàn)了,??梢赃@樣說(shuō),只要人的作用在數(shù)據(jù)治理中無(wú)法減輕,,數(shù)據(jù)治理的尷尬現(xiàn)狀就很難得到根本的改善,。
本文認(rèn)為,2022年底開(kāi)始迅速流行起來(lái)的新型人工智能,,即大模型技術(shù),,可以從根本上改變金融數(shù)據(jù)治理的上述現(xiàn)狀,將治理推進(jìn)到“智”理,,同時(shí)催生新一代的數(shù)智融合金融科技體系,。其中最核心的原因就是大模型技術(shù)可以大幅度降低數(shù)據(jù)治理對(duì)“人”的經(jīng)驗(yàn)與手工工作的依賴(lài),這是經(jīng)典人工智能無(wú)法做到的。
可以這樣描述:傳統(tǒng)數(shù)據(jù)治理工具只通過(guò)流程與顯式規(guī)則控制,,無(wú)法真正,、自主提升數(shù)據(jù)治理水平,即只能發(fā)現(xiàn),,無(wú)法提升,;同時(shí)難以擺脫人工對(duì)數(shù)據(jù)架構(gòu)、分布,、標(biāo)準(zhǔn),、質(zhì)量、元數(shù)據(jù),、信息化(報(bào)表)等數(shù)據(jù)治理全生命周期的大量干預(yù),。而大模型將改變數(shù)據(jù)治理過(guò)份依賴(lài)人工現(xiàn)象,實(shí)現(xiàn)由“專(zhuān)家+工具”治理向自主“智”理過(guò)度,,并可以按需生成大數(shù)據(jù),,形成數(shù)據(jù)治理閉環(huán)。
2.金融數(shù)據(jù)“智”理的宏觀要素
從宏觀層面來(lái)講,,大模型驅(qū)動(dòng)的數(shù)據(jù)“智”理作用可以體現(xiàn)在如下幾個(gè)方面:
l數(shù)據(jù)消費(fèi)常態(tài)化:數(shù)據(jù)“智”理可以將傳統(tǒng)治理“以管為核”的狀態(tài)真正推進(jìn)到“以管為基,,以用為核”的數(shù)據(jù)消費(fèi)常態(tài)化的高級(jí)階段。現(xiàn)代數(shù)據(jù)“智”理的核心目標(biāo)是數(shù)據(jù)消費(fèi),,即“用好”,,而不只是“管好”。雖然說(shuō)過(guò)去數(shù)據(jù)資產(chǎn)化的目標(biāo)也是“用”,,但經(jīng)驗(yàn)告訴我們這從來(lái)沒(méi)有真正實(shí)現(xiàn)過(guò),。為了解決業(yè)務(wù)無(wú)法有效使用數(shù)據(jù)平臺(tái)的問(wèn)題,數(shù)據(jù)資產(chǎn)化項(xiàng)目往往都是通過(guò)面向業(yè)務(wù)主題重新組織傳統(tǒng)數(shù)據(jù)平臺(tái)中過(guò)于技術(shù)化的數(shù)據(jù)集,,通過(guò)一大推的數(shù)據(jù)加工工程建立一個(gè)業(yè)務(wù)人員能看懂,、方便用的新業(yè)務(wù)數(shù)據(jù)平臺(tái)(包括數(shù)據(jù)集與自助探索工具),。但這個(gè)過(guò)程中最關(guān)鍵的點(diǎn),,即技術(shù)到業(yè)務(wù)的變換從來(lái)都無(wú)法主體常態(tài)化、自動(dòng)化,,無(wú)論如何總結(jié)積累,,都無(wú)法避免大量的人工干預(yù),以及隨著生產(chǎn)數(shù)據(jù)不斷增長(zhǎng)更新帶來(lái)的重建與維護(hù),,導(dǎo)致數(shù)據(jù)資產(chǎn)化平臺(tái)成為了一個(gè)新的亟需“治理”的數(shù)據(jù)集合,。而大模型數(shù)據(jù)“智”理則可以將數(shù)據(jù)屬性從技術(shù)到業(yè)務(wù)的轉(zhuǎn)移與轉(zhuǎn)換變成SmartMove與AutoShift,成為面向業(yè)務(wù)增長(zhǎng)與擴(kuò)展自主適應(yīng)與自動(dòng)執(zhí)行的常態(tài)機(jī)制,;
l治理工程任務(wù)化:數(shù)據(jù)治理實(shí)施中,,有大量不可避免的工程性工作,例如進(jìn)入數(shù)據(jù)平臺(tái)之前對(duì)數(shù)據(jù)的清洗,,空白值填充,,去重,,合并;對(duì)元數(shù)據(jù)未知業(yè)務(wù)語(yǔ)義的補(bǔ)充,;對(duì)不合格數(shù)據(jù)的檢測(cè)與修正……等等,。這些工作有的依靠規(guī)則性工具輔助人工在一定程度上提升效率,有的需要人工依次定制腳本,,有的則必須純粹依靠人工,。當(dāng)然,也有很多通過(guò)經(jīng)典自然語(yǔ)言處理NLP技術(shù)進(jìn)行語(yǔ)義分析的嘗試,,但效果都不是很理想,。實(shí)踐證明,大模型出現(xiàn)之前的經(jīng)典人工智能的效果,,嚴(yán)重依賴(lài)高質(zhì)量,、大批量的訓(xùn)練數(shù)據(jù),特定的場(chǎng)景,,以及技術(shù)人員對(duì)業(yè)務(wù)的充分深度理解,,因此很難實(shí)現(xiàn)大范圍的有效推廣,簡(jiǎn)單講:無(wú)法成為通用技術(shù)設(shè)施,,很多所謂AI技術(shù)中臺(tái)的概念從來(lái)都沒(méi)有成功過(guò),。這些工程工作量大、繁雜,,且往往都是數(shù)據(jù)治理能否順利產(chǎn)生成效的關(guān)鍵點(diǎn),,從而成為數(shù)據(jù)治理難以取得常態(tài)化成效的主要障礙之一。而大模型的出現(xiàn),,則使人工智能成為通用技術(shù)基礎(chǔ)設(shè)施成為可行,。基于大模型技術(shù),,可以使上述各類(lèi)工程從需要通過(guò)工具開(kāi)發(fā),、代碼開(kāi)發(fā)或者人工執(zhí)行具體過(guò)程的“功能”,升級(jí)成為只需要告訴數(shù)據(jù)平臺(tái)我需要什么結(jié)果的“任務(wù)”,,即實(shí)現(xiàn)“治理工程任務(wù)化”,,這顯然對(duì)數(shù)據(jù)治理工作的實(shí)施難度與質(zhì)效提升有很大的幫助;
l質(zhì)效提增平民化:長(zhǎng)期從事數(shù)據(jù)治理工作的人應(yīng)該知道,,如果想提升數(shù)據(jù)治理的質(zhì)效,,必須由一批有豐富經(jīng)驗(yàn)、知識(shí)與技能的各類(lèi)業(yè)務(wù)與技術(shù)“專(zhuān)家”才有可能實(shí)現(xiàn),。比如寫(xiě)SQL,,做報(bào)表,修正數(shù)據(jù),補(bǔ)充語(yǔ)義等,。然而,,數(shù)據(jù)治理的核心目標(biāo)之一卻是“讓企業(yè)所有需要數(shù)據(jù)的主體,包括業(yè)務(wù),、技術(shù),、運(yùn)維甚至客戶(hù),都可以方便地使用高質(zhì)量的數(shù)據(jù)”,。這些需要數(shù)據(jù)的主體,,他們對(duì)數(shù)據(jù)資源質(zhì)效的要求極為廣泛,并且根本無(wú)法以規(guī)則總結(jié)做窮舉性工程抽象,。因此,,即使擁有上述這群“專(zhuān)家”,也只能是達(dá)到尷尬的維持狀態(tài),,很難充分滿(mǎn)足實(shí)際需求,。大模型的出現(xiàn),可以讓任何一個(gè)主體,,無(wú)論他的技能與知識(shí)水平如何,,只要他知道自己需要什么,只要他知道數(shù)據(jù)質(zhì)效哪里有問(wèn)題,,就可以直接以“自然語(yǔ)言要求”來(lái)提增質(zhì)效,。比如最容易理解的NL2SQL,不需要寫(xiě)SQL,,語(yǔ)言要求就可以自動(dòng)生成SQL,;不需要從數(shù)據(jù)處理全流程出發(fā)修正數(shù)據(jù)錯(cuò)誤,只需要告訴平臺(tái)哪些數(shù)據(jù)是錯(cuò)誤,,下次需要怎樣修正,;甚至普通的開(kāi)發(fā)人員可以以自然語(yǔ)言實(shí)現(xiàn)過(guò)去高級(jí)開(kāi)發(fā)人員才能實(shí)現(xiàn)的計(jì)算效率改進(jìn)問(wèn)題,普通的運(yùn)維人員可以以自然語(yǔ)言完成高水平的運(yùn)維等,,即實(shí)現(xiàn)“質(zhì)效提增平民化”,。可想而見(jiàn),,這一點(diǎn)將使數(shù)據(jù)治理及其使用形成完整的正向提升反饋閉環(huán)與循環(huán),,能夠產(chǎn)生的實(shí)效無(wú)疑是巨大的,。
l數(shù)據(jù)資源多?;阂恢币詠?lái),數(shù)據(jù)治理的主要對(duì)象是結(jié)構(gòu)化數(shù)據(jù),,其所有的體系,、流程與工具也大都是針對(duì)“表格”。然而,隨著數(shù)字化的不斷深入,,以及金融科技向著深度沉浸式感知的客戶(hù)體驗(yàn)?zāi)芰M(jìn)化時(shí),,對(duì)全結(jié)構(gòu)、多模態(tài)的數(shù)據(jù)資源進(jìn)行有效的治理已經(jīng)成為迫在眉睫的重要任務(wù),。但是,,在金融數(shù)據(jù)體系中,文音視圖等非結(jié)構(gòu)化數(shù)據(jù)一直沒(méi)有也不能得到很好的治理,,這是因?yàn)闊o(wú)論是數(shù)據(jù)庫(kù)還是更先進(jìn)的湖倉(cāng)平臺(tái),,其主體能力其實(shí)都是面向結(jié)構(gòu)化(包括半結(jié)構(gòu)化)數(shù)據(jù)的。過(guò)去雖然有過(guò)很多對(duì)非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理治理的嘗試,,但由于技術(shù)限制,,大多類(lèi)似的工作實(shí)質(zhì)上都只是采用結(jié)構(gòu)化數(shù)據(jù)管理工具鏈接文件地址,準(zhǔn)確地講,,這種技術(shù)方法相當(dāng)于并沒(méi)有多模態(tài)數(shù)據(jù)管理治理的能力,。大模型技術(shù)體系中的向量化技術(shù),以及RAG(檢索增強(qiáng)生成),,可以非常有效地將文音視圖等多模態(tài)數(shù)據(jù)資源與結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)融合起來(lái),,包括檢索與計(jì)算等,從而極大的擴(kuò)大了數(shù)據(jù)治理的對(duì)象范圍,,實(shí)現(xiàn)“數(shù)據(jù)資源多?;薄?/p>
3.金融數(shù)據(jù)“智”理的工程實(shí)現(xiàn)
從工程實(shí)現(xiàn)的角度來(lái)講,,大模型驅(qū)動(dòng)的數(shù)據(jù)“智”理的具體點(diǎn)可以體現(xiàn)在如下幾個(gè)方面:
3.1 數(shù)據(jù)預(yù)處理:在數(shù)據(jù)預(yù)處理領(lǐng)域,,大模型可以發(fā)揮明顯作用。眾所周知,,經(jīng)典的數(shù)據(jù)治理流程中,,都無(wú)法繞開(kāi)數(shù)據(jù)倉(cāng)庫(kù)、湖倉(cāng)平臺(tái)或者數(shù)據(jù)資產(chǎn)平臺(tái)的建設(shè),,而這些工作都需要在數(shù)據(jù)資源進(jìn)入平臺(tái)的前或后進(jìn)行數(shù)據(jù)預(yù)處理,,所謂ETL與ELT,這是一項(xiàng)極為繁雜,、堅(jiān)巨并且重要的工作,,然而卻往往都代表著大量不可避免的手工工作與人工開(kāi)發(fā)。大模型技術(shù)通過(guò)學(xué)習(xí),、并不斷迭代積累人的經(jīng)驗(yàn),,可以很大程度上實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)預(yù)處理,包括標(biāo)注,、清洗與分類(lèi),,從而極大程度地提高數(shù)據(jù)治理的常態(tài)化水平與質(zhì)效,,可以包括:
(1) 對(duì)不完整數(shù)據(jù)語(yǔ)義的標(biāo)注;
(2) 通過(guò)缺失值處理,、異常值檢測(cè),、數(shù)據(jù)一致性檢查、數(shù)據(jù)類(lèi)型轉(zhuǎn)換,、數(shù)據(jù)標(biāo)準(zhǔn)化/歸一化,、數(shù)據(jù)去重、數(shù)據(jù)合并/編碼,、離散化等等手段進(jìn)行數(shù)據(jù)清洗以提升數(shù)據(jù)的準(zhǔn)確性,、完整性和一致性;
(3) 對(duì)數(shù)據(jù)資源進(jìn)行分類(lèi),,包括業(yè)務(wù)分類(lèi),、技術(shù)分類(lèi)與安全分類(lèi)。
3.2 數(shù)據(jù)質(zhì)量:除了數(shù)據(jù)預(yù)處理時(shí)通過(guò)清洗提升數(shù)據(jù)質(zhì)量以外,,在數(shù)據(jù)治理流程中,,還需要通過(guò)數(shù)據(jù)質(zhì)量工具檢測(cè)發(fā)現(xiàn)運(yùn)行流程中的數(shù)據(jù)質(zhì)量問(wèn)題,這種工具也是經(jīng)典數(shù)據(jù)治理中的重要環(huán)節(jié)之一,。然而,,經(jīng)典工具往往是通過(guò)窮舉式規(guī)則來(lái)實(shí)現(xiàn)檢測(cè)的,先不說(shuō)這些規(guī)則的豐富性,、完整性以及在不同單位之間的可遷移性本身就是個(gè)問(wèn)題,,當(dāng)質(zhì)量問(wèn)題發(fā)現(xiàn)出來(lái)以后,工具并不能負(fù)責(zé)問(wèn)題的修復(fù),,改正問(wèn)題還是需要人來(lái)處理,,正所謂“只能發(fā)現(xiàn),不能修正”,;同時(shí),,大模型也可以在自動(dòng)規(guī)則推薦、異常定位等方面發(fā)揮作用,。
(1) 首先,,大模型可以輔助發(fā)現(xiàn)與定位質(zhì)量異常。通過(guò)對(duì)數(shù)據(jù)資源整體狀況的學(xué)習(xí),,以及對(duì)人類(lèi)修正知識(shí)的定向補(bǔ)充,,可以更大范圍、更加方便地發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,,如錯(cuò)誤格式,、標(biāo)準(zhǔn)不符、重復(fù)數(shù)據(jù),、缺失數(shù)據(jù),、不一致數(shù)據(jù)等,,定位數(shù)據(jù)質(zhì)量問(wèn)題的源頭,。
(2) 其次,,大模型具備自動(dòng)修正數(shù)據(jù)質(zhì)量的能力。并且這些能力可以隨著大模型工作時(shí)間的積累而持續(xù)增長(zhǎng),。具體來(lái)講,,大模型可以自動(dòng)識(shí)別與修正拼寫(xiě)錯(cuò)誤,重復(fù)記錄,,數(shù)據(jù)格式不一致,;還可以通過(guò)理解數(shù)據(jù)的上下文,高效處理較為復(fù)雜的數(shù)據(jù)錯(cuò)誤,,例如在數(shù)據(jù)集中時(shí)間,、數(shù)值甚至語(yǔ)義序列突然中斷時(shí),通過(guò)分析上下文推斷填補(bǔ),;對(duì)有些復(fù)雜問(wèn)題,,大模型可以提出改善建議,然后通過(guò)人工來(lái)選擇解決,。
(3) 再者,,大模型可以進(jìn)行質(zhì)量規(guī)則與相關(guān)閾值推薦,自動(dòng)為數(shù)據(jù)對(duì)象推薦/匹配表級(jí)和字段級(jí)的數(shù)據(jù)質(zhì)量規(guī)則,,以及質(zhì)量異常閾值等,。
3.3 數(shù)據(jù)標(biāo)準(zhǔn):大模型可以用來(lái)推進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)的企業(yè)級(jí)高質(zhì)效制定、充分貫徹與使用維護(hù),。
(1) 首先,,就是大模型輔助數(shù)據(jù)標(biāo)準(zhǔn)制定。這項(xiàng)工作過(guò)去主要是由有經(jīng)驗(yàn)的專(zhuān)家,,首先對(duì)企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容,,包括字段的規(guī)范、業(yè)務(wù)定義,、類(lèi)別等,,各項(xiàng)改進(jìn)的需求,企業(yè)現(xiàn)存的部門(mén)級(jí),、團(tuán)隊(duì)級(jí)或者零散的標(biāo)準(zhǔn),,以及行業(yè)、國(guó)家及國(guó)際的標(biāo)準(zhǔn)等等進(jìn)行調(diào)研,、收集,、分析與總結(jié),然后再人工實(shí)施制定,、整合,、校對(duì),、審核等工作。現(xiàn)在,,則可以把以上所有的調(diào)研工作成果當(dāng)作知識(shí)喂給大模型,,然后讓大模型來(lái)自動(dòng)制定企業(yè)級(jí)數(shù)據(jù)標(biāo)準(zhǔn),再進(jìn)行人工審核與反饋優(yōu)化的迭代,;如果企業(yè)已經(jīng)有了相關(guān)的標(biāo)準(zhǔn),,則可以用大模型來(lái)輔助進(jìn)行審核與完善。
(2) 再者,,就是大模型輔助數(shù)據(jù)標(biāo)準(zhǔn)的貫徹,。前文講過(guò),其實(shí)過(guò)去以來(lái)的由人工主導(dǎo)的金融數(shù)據(jù)標(biāo)準(zhǔn)制定工作不能說(shuō)做的不好,,相反來(lái)講,,很多相關(guān)工作其實(shí)做的很全面并且實(shí)用,但主要的問(wèn)題是很難大范圍貫徹,,其中最核心的原因還是人:無(wú)法讓需要貫徹標(biāo)準(zhǔn)的所有環(huán)節(jié)都能有數(shù)據(jù)標(biāo)準(zhǔn)專(zhuān)家支持,。那么,大模型則可以很好的輔助推進(jìn)該問(wèn)題的解決,。首先,,利用大模型對(duì)已經(jīng)制定好的數(shù)據(jù)標(biāo)準(zhǔn)(可以是以前人工已經(jīng)制定好的)進(jìn)行學(xué)習(xí),使得大模型本身成為一個(gè)標(biāo)準(zhǔn)專(zhuān)家,,然后在企業(yè)需要實(shí)施標(biāo)準(zhǔn)的所有環(huán)節(jié),,都通過(guò)自然語(yǔ)言交互的方式來(lái)咨詢(xún)與處理數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題,這包括運(yùn)行中的API對(duì)接,,以及實(shí)時(shí)交互中的問(wèn)答等多種方式,。這就好像是為每一個(gè)數(shù)據(jù)開(kāi)發(fā)、運(yùn)維與使用者都配備了一個(gè)數(shù)據(jù)標(biāo)準(zhǔn)專(zhuān)家,,其所有產(chǎn)生的效果可想而知,。
(3) 還有就是利用大模型輔助進(jìn)行標(biāo)準(zhǔn)的維護(hù)與更新。企業(yè)可以監(jiān)測(cè),、收集業(yè)務(wù)數(shù)據(jù)的變化,,讓大模型輔助提供標(biāo)準(zhǔn)的新增與變更建議,自動(dòng)及高效地進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的維護(hù)與更新,。
(4) 在實(shí)踐中,,本文認(rèn)為,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的智能貫徹與維護(hù),,要比自動(dòng)制定更為實(shí)用,。
3.4 主動(dòng)元數(shù)據(jù):數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量與元數(shù)據(jù)是經(jīng)典金融數(shù)據(jù)治理的三大核心,,大模型同時(shí)還可以用來(lái)加強(qiáng)企業(yè)元數(shù)據(jù)管理的能力,,推動(dòng)主動(dòng)元數(shù)據(jù)(Self-Service Data Management)策略的實(shí)現(xiàn)(從2023到2024年,,Gartner Hype Cycle for DataManagement將主動(dòng)元數(shù)據(jù)從黑色提升成灰色)。通過(guò)對(duì)企業(yè)數(shù)據(jù)資源,、以及人的經(jīng)驗(yàn)總結(jié)進(jìn)行全面的學(xué)習(xí)以后,,大模型可以輔助完成元數(shù)據(jù)自動(dòng)生成,缺失元數(shù)據(jù)的補(bǔ)充,,技術(shù)與業(yè)務(wù)語(yǔ)義的填充,,自動(dòng)生成元數(shù)據(jù)摘要,、關(guān)鍵詞描述等工作,,從而真正達(dá)到智能元數(shù)據(jù)管理的水平。具體可以包括如下幾個(gè)方面的工作:
(1)元數(shù)據(jù)側(cè)寫(xiě)(Data Profiling),、補(bǔ)全與挖掘:在元數(shù)據(jù)治理工作中,,大多數(shù)企業(yè)都存在業(yè)務(wù)元數(shù)據(jù)不準(zhǔn)確、不全面或者缺失的情況,,包括很多表與字段的中文名,、業(yè)務(wù)口徑、描述,、標(biāo)簽,、取值說(shuō)明等字段,大模型可以通過(guò)業(yè)務(wù)資料學(xué)習(xí),、元數(shù)據(jù)側(cè)寫(xiě)(自動(dòng)收集,、分析數(shù)據(jù)結(jié)構(gòu)、內(nèi)容,、質(zhì)量,、語(yǔ)義、使用情況及相互關(guān)系等),、類(lèi)似元數(shù)據(jù)發(fā)現(xiàn),、挖掘與比對(duì)、自動(dòng)推理與生成等等方法來(lái)輔助完成這些工作,。實(shí)際上,,人工完成這些工作也是使用這些方法,但現(xiàn)在,,人工怎么做的,,就教給大模型來(lái)做,從而大大提升質(zhì)效,。
(2) 數(shù)據(jù)分類(lèi)與標(biāo)簽:通過(guò)對(duì)相關(guān)業(yè)務(wù)分類(lèi)規(guī)則的學(xué)習(xí),,對(duì)行業(yè)與國(guó)家標(biāo)準(zhǔn)的學(xué)習(xí)(如分級(jí)分類(lèi)標(biāo)準(zhǔn)),對(duì)數(shù)據(jù)內(nèi)容樣例的學(xué)習(xí),,大模型可以自動(dòng)進(jìn)行數(shù)據(jù)的分級(jí)分類(lèi),、打標(biāo)簽等工作,。這些工作眾所周知,過(guò)去都是由人工以人天多少字段為單位來(lái)實(shí)現(xiàn)與計(jì)算的,,對(duì)于那些元數(shù)據(jù)規(guī)模大,、復(fù)雜并且持續(xù)維護(hù)需求高的企業(yè),大模型起的作用無(wú)疑是巨大的,。
(3) 數(shù)據(jù)血緣分析與構(gòu)建:過(guò)去,,數(shù)據(jù)血緣大都是通過(guò)在開(kāi)發(fā)系統(tǒng)中跟蹤、收集ETL/ELT加工過(guò)程實(shí)現(xiàn)的,,這導(dǎo)致首先不在一個(gè)加工環(huán)節(jié)的數(shù)據(jù)集(如兩個(gè)獨(dú)立的數(shù)據(jù)庫(kù))之間的血緣難以建立,,其次即使在同一個(gè)數(shù)據(jù)平臺(tái)(如數(shù)倉(cāng))上也往往不全面。大模型可以在對(duì)這些已有工作學(xué)習(xí)的基礎(chǔ)上,,輔以對(duì)代碼,、腳本、文檔的解析,,對(duì)相似血緣范式的抽象與挖掘,,給出更加全面的血緣關(guān)系發(fā)現(xiàn)與構(gòu)建建議。
(4) 數(shù)據(jù)對(duì)象與分析方法推薦:大模型可以基于數(shù)據(jù)使用者的業(yè)務(wù)職責(zé),、操作歷史向他們推薦合適的數(shù)據(jù)對(duì)象,;還可以再結(jié)合數(shù)據(jù)特征推薦合適的數(shù)據(jù)分析方法,如如時(shí)間序列,、回歸,、線性模型、地理分析等等,。
3.5 非結(jié)構(gòu)化數(shù)據(jù):如前文所述,,對(duì)日益增多并且日益重要的非結(jié)構(gòu)化數(shù)據(jù):
(1) 大模型首先可以通過(guò)向量化實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理,這會(huì)真正把非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)管理工具有機(jī)融合在一起(而不只是存儲(chǔ)一個(gè)文件地址指針),;
(2) 更進(jìn)一步,,大模型還可以從非結(jié)構(gòu)化數(shù)據(jù)中提取出新的數(shù)據(jù)與知識(shí),如從文音視圖中提取表格,、標(biāo)簽和摘要,,從而使這些數(shù)據(jù)易于存儲(chǔ)、查詢(xún)和分析,;將客戶(hù)反饋,、社交媒體評(píng)論和在線論壇的討論轉(zhuǎn)化為結(jié)構(gòu)化的客戶(hù)洞察;對(duì)病例報(bào)告和臨床試驗(yàn)結(jié)果等進(jìn)行結(jié)構(gòu)化處理等,。
(3) 很顯然,,非結(jié)構(gòu)化數(shù)據(jù)治理功能的具備,會(huì)將金融數(shù)據(jù)治理的能力推進(jìn)到一個(gè)新的階段。
3.6 數(shù)據(jù)整合和關(guān)聯(lián):大模型還可以幫助發(fā)現(xiàn)數(shù)據(jù)資源之間的關(guān)聯(lián):
(1) 不僅僅發(fā)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)之間的,,而且發(fā)現(xiàn)文,、音、視,、圖,、表格、XML,、JSON等各種模態(tài)之間數(shù)據(jù)的內(nèi)在聯(lián)系,。
(2) 通過(guò)大模型的加持,這種工作在即使缺乏明顯關(guān)聯(lián)標(biāo)識(shí)的情況下也能有效工作,,還可以學(xué)習(xí)數(shù)據(jù)之間的復(fù)雜關(guān)系和模式,,揭示不為人知的洞察。
(3) 這些能力在之前是很難有效實(shí)現(xiàn)的,。通過(guò)深度廣泛的數(shù)據(jù)整合與關(guān)聯(lián),,可以挖掘出大量過(guò)去無(wú)法利用的價(jià)值數(shù)據(jù)與知識(shí),,這無(wú)疑對(duì)“以用為核”,、以最大化價(jià)值釋放的為核心目標(biāo)的現(xiàn)代數(shù)據(jù)治理實(shí)現(xiàn)有著巨大的推動(dòng)作用。
3.7 數(shù)據(jù)增強(qiáng)和合成數(shù)據(jù)生成:如上還都是利用了大模型超強(qiáng)的分析,、挖掘,、理解能力,而大模型最強(qiáng)大的“生成數(shù)據(jù)”能力自然也會(huì)極大地提高金融數(shù)據(jù)治理的水平,,或者說(shuō)將其推進(jìn)到生成式數(shù)據(jù)“智”理的新階段,。具體來(lái)講:
(1) 例如對(duì)數(shù)據(jù)隱私保護(hù)和模型訓(xùn)練,自動(dòng)合成訓(xùn)練數(shù)據(jù)并輔助樣本標(biāo)準(zhǔn),。這些工作一般都是人工準(zhǔn)備與標(biāo)注的,,并且對(duì)從事人工的“人”要求又極高,有時(shí)需要技術(shù)與業(yè)務(wù)能力兼?zhèn)?,所以工作量極大并果往往效果不佳?,F(xiàn)在,企業(yè)可以用大模型來(lái)學(xué)習(xí)過(guò)去優(yōu)秀的訓(xùn)練數(shù)據(jù)集,,把好的訓(xùn)練數(shù)據(jù)集的標(biāo)準(zhǔn)通過(guò)提示詞或者微調(diào)的方式告知大模型,,將大量的知識(shí)存入向量數(shù)據(jù)庫(kù)以備RAG使用等等,這樣則可以合成高質(zhì)量交易數(shù)據(jù),,合成消費(fèi)記錄,、信用記錄,不良記錄,,自動(dòng)完成準(zhǔn)確的樣本標(biāo)注等等,;
(2) 除了用于訓(xùn)練,大模型還可以用來(lái)自動(dòng)生成測(cè)試數(shù)據(jù),脫敏數(shù)據(jù)等,。
(3) 很顯然,,除了以上所列,大模型的數(shù)據(jù)“智”理能力是隨著使用與企業(yè)業(yè)務(wù)變化不斷自適應(yīng)與自動(dòng)加強(qiáng)的,,這與依賴(lài)于能力靜態(tài)的工具,、以及專(zhuān)家經(jīng)驗(yàn)及手工工作有著本質(zhì)性不同的發(fā)展前景與地位。
4.結(jié)語(yǔ)
綜上所述,,大模型完全可以推動(dòng)傳統(tǒng)數(shù)據(jù)治理向脫離人工的自動(dòng)化,、隨著業(yè)務(wù)變化自主迭代的自適應(yīng)化的全新智能階段躍進(jìn),以實(shí)現(xiàn)一個(gè)消費(fèi)常態(tài)化,、功能任務(wù)化,、增效平民化與數(shù)據(jù)多模化的新一代數(shù)據(jù)智理“體”系,。這其中核心的原因就是:只要是在現(xiàn)實(shí)工作與工程中需要依賴(lài)人工經(jīng)驗(yàn)與手工工作的環(huán)節(jié),,都可以通過(guò)大模型預(yù)制化、自動(dòng)化并且持續(xù)自適應(yīng)迭代強(qiáng)化,。而“人”的因素其實(shí)是長(zhǎng)期以來(lái)金融數(shù)據(jù)治理處于“持續(xù)關(guān)注,,一直欠佳”的尷尬境地的核心原因。更進(jìn)一步講,,數(shù)據(jù)“智”理體系已經(jīng)在范圍上大大突破了傳統(tǒng)數(shù)據(jù)治理的范疇,,而是代表了金融機(jī)構(gòu)在數(shù)字化時(shí)代的新型“數(shù)智融合”數(shù)據(jù)體系。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1113722.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。