來源:IT168企業(yè)級頻道
摘要:長期以來,,很多金融機(jī)構(gòu)的數(shù)據(jù)治理效果一直不盡人意,,這已經(jīng)成為金融科技公認(rèn)的重要需求與固有難題,。以大模型為代表的新一代人工智能有望徹底改變這種狀態(tài),,它通過以自然語言而非專業(yè)技術(shù)驅(qū)動(dòng)的人機(jī)交互界面,,以及對人類專業(yè)經(jīng)驗(yàn)與流程執(zhí)行效果的良好模擬,能有效解決傳統(tǒng)數(shù)據(jù)治理體系與工程中的諸多難點(diǎn),,大力推動(dòng)人工治理走向自主“智”理,,并最終形成新一代的金融數(shù)據(jù)體系。
1.前言
數(shù)據(jù)治理長年以來一直是最重要的金融科技領(lǐng)域之一,,從本世紀(jì)初金融機(jī)構(gòu)開始實(shí)施企業(yè)級數(shù)據(jù)倉庫(EDW)開始就一直被持續(xù)關(guān)注,并不斷進(jìn)行著相關(guān)的建設(shè)與改進(jìn)活動(dòng),,包括數(shù)據(jù)標(biāo)準(zhǔn),、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理工程,、相關(guān)的咨詢規(guī)劃等工作,,以及近十幾年來隨著大數(shù)據(jù)技術(shù)普及而興起的數(shù)據(jù)中臺、數(shù)據(jù)資產(chǎn)管理等,,都屬于數(shù)據(jù)治理的范疇或者與之緊密相關(guān),。同時(shí),,數(shù)據(jù)治理長年以來也是金融科技系統(tǒng)中最為尷尬的難題。它不像很多業(yè)務(wù)目標(biāo)非常清晰項(xiàng)目與產(chǎn)品實(shí)施,,效果立桿見影,。對大部分金融機(jī)構(gòu)來講,數(shù)據(jù)治理一直處于這樣的境況:數(shù)據(jù)治理狀態(tài)不好一直確切地影響著業(yè)務(wù)質(zhì)效,,因此不斷受到重視,;數(shù)據(jù)治理項(xiàng)目長年持續(xù)實(shí)施,可帶來的效果總是與預(yù)期不付,。例如咨詢規(guī)劃相當(dāng)多起了高調(diào),,后續(xù)落實(shí)不力;數(shù)據(jù)標(biāo)準(zhǔn)項(xiàng)目往往形成了全面一致的本子,,但卻難以大范圍切實(shí)推廣,;數(shù)據(jù)質(zhì)量工具與流程不斷引進(jìn),但數(shù)據(jù)質(zhì)量問題一直不能得到上下,、內(nèi)外一致順暢的解決,;元數(shù)據(jù)管理往往限于一域,企業(yè)級水平很難達(dá)到,;數(shù)據(jù)資產(chǎn),、數(shù)據(jù)中臺等本質(zhì)上也都是為了讓業(yè)務(wù)更方便地使用數(shù)據(jù)而建設(shè)的新孤島,對數(shù)據(jù)治理水平并沒有實(shí)際的提升…..,??傊喈?dāng)部分金融機(jī)構(gòu)的數(shù)據(jù)治理工作就是長期處于這樣一直在努力,、一直不滿意的尷尬狀態(tài)中,。
仔細(xì)分析就可以發(fā)現(xiàn),金融數(shù)據(jù)治理的這種狀態(tài)其實(shí)是正常并且合乎邏輯的,,也就是說,,如果沒有什么明顯的驅(qū)動(dòng)力,大概率大家會一直這樣持續(xù)下去,。為什么呢,?數(shù)據(jù)治理與實(shí)施具有明確業(yè)務(wù)目標(biāo)的項(xiàng)目不同,除了技術(shù)與工具之外,,它很大程度上都依賴于“人”,,這包括人的經(jīng)驗(yàn),人的手工,,人對流程的執(zhí)行力,、配合度等。例如,對數(shù)據(jù)質(zhì)量問題,,工具往往只能通過規(guī)則協(xié)助發(fā)現(xiàn)問題,,卻不能解決問題,,解決問題需要靠人的經(jīng)驗(yàn)與精力,;數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行,也需要自頂而下,、各平行部門的人配合協(xié)調(diào)執(zhí)行流程,;數(shù)據(jù)處理中的標(biāo)注、分類,,元數(shù)據(jù)的填充,、生成等也主要依靠人工。這些都還只是一些典型的問題,,更不說如何能從數(shù)據(jù)資源中發(fā)現(xiàn)更深更廣層次的關(guān)聯(lián)知識,,如何從現(xiàn)有數(shù)據(jù)中產(chǎn)生有更廣泛用途的增強(qiáng)數(shù)據(jù)等數(shù)據(jù)治理的高階提升,不依靠人工就更加無法實(shí)現(xiàn)了,??梢赃@樣說,只要人的作用在數(shù)據(jù)治理中無法減輕,,數(shù)據(jù)治理的尷尬現(xiàn)狀就很難得到根本的改善,。
本文認(rèn)為,2022年底開始迅速流行起來的新型人工智能,,即大模型技術(shù),,可以從根本上改變金融數(shù)據(jù)治理的上述現(xiàn)狀,將治理推進(jìn)到“智”理,,同時(shí)催生新一代的數(shù)智融合金融科技體系,。其中最核心的原因就是大模型技術(shù)可以大幅度降低數(shù)據(jù)治理對“人”的經(jīng)驗(yàn)與手工工作的依賴,這是經(jīng)典人工智能無法做到的,。
可以這樣描述:傳統(tǒng)數(shù)據(jù)治理工具只通過流程與顯式規(guī)則控制,,無法真正、自主提升數(shù)據(jù)治理水平,,即只能發(fā)現(xiàn),,無法提升;同時(shí)難以擺脫人工對數(shù)據(jù)架構(gòu),、分布,、標(biāo)準(zhǔn)、質(zhì)量,、元數(shù)據(jù),、信息化(報(bào)表)等數(shù)據(jù)治理全生命周期的大量干預(yù)。而大模型將改變數(shù)據(jù)治理過份依賴人工現(xiàn)象,實(shí)現(xiàn)由“專家+工具”治理向自主“智”理過度,,并可以按需生成大數(shù)據(jù),,形成數(shù)據(jù)治理閉環(huán)。
2.金融數(shù)據(jù)“智”理的宏觀要素
從宏觀層面來講,,大模型驅(qū)動(dòng)的數(shù)據(jù)“智”理作用可以體現(xiàn)在如下幾個(gè)方面:
l數(shù)據(jù)消費(fèi)常態(tài)化:數(shù)據(jù)“智”理可以將傳統(tǒng)治理“以管為核”的狀態(tài)真正推進(jìn)到“以管為基,,以用為核”的數(shù)據(jù)消費(fèi)常態(tài)化的高級階段。現(xiàn)代數(shù)據(jù)“智”理的核心目標(biāo)是數(shù)據(jù)消費(fèi),,即“用好”,,而不只是“管好”。雖然說過去數(shù)據(jù)資產(chǎn)化的目標(biāo)也是“用”,,但經(jīng)驗(yàn)告訴我們這從來沒有真正實(shí)現(xiàn)過,。為了解決業(yè)務(wù)無法有效使用數(shù)據(jù)平臺的問題,數(shù)據(jù)資產(chǎn)化項(xiàng)目往往都是通過面向業(yè)務(wù)主題重新組織傳統(tǒng)數(shù)據(jù)平臺中過于技術(shù)化的數(shù)據(jù)集,,通過一大推的數(shù)據(jù)加工工程建立一個(gè)業(yè)務(wù)人員能看懂,、方便用的新業(yè)務(wù)數(shù)據(jù)平臺(包括數(shù)據(jù)集與自助探索工具)。但這個(gè)過程中最關(guān)鍵的點(diǎn),,即技術(shù)到業(yè)務(wù)的變換從來都無法主體常態(tài)化,、自動(dòng)化,無論如何總結(jié)積累,,都無法避免大量的人工干預(yù),,以及隨著生產(chǎn)數(shù)據(jù)不斷增長更新帶來的重建與維護(hù),導(dǎo)致數(shù)據(jù)資產(chǎn)化平臺成為了一個(gè)新的亟需“治理”的數(shù)據(jù)集合,。而大模型數(shù)據(jù)“智”理則可以將數(shù)據(jù)屬性從技術(shù)到業(yè)務(wù)的轉(zhuǎn)移與轉(zhuǎn)換變成SmartMove與AutoShift,,成為面向業(yè)務(wù)增長與擴(kuò)展自主適應(yīng)與自動(dòng)執(zhí)行的常態(tài)機(jī)制;
l治理工程任務(wù)化:數(shù)據(jù)治理實(shí)施中,,有大量不可避免的工程性工作,例如進(jìn)入數(shù)據(jù)平臺之前對數(shù)據(jù)的清洗,空白值填充,,去重,合并,;對元數(shù)據(jù)未知業(yè)務(wù)語義的補(bǔ)充,;對不合格數(shù)據(jù)的檢測與修正……等等,。這些工作有的依靠規(guī)則性工具輔助人工在一定程度上提升效率,有的需要人工依次定制腳本,,有的則必須純粹依靠人工,。當(dāng)然,也有很多通過經(jīng)典自然語言處理NLP技術(shù)進(jìn)行語義分析的嘗試,,但效果都不是很理想,。實(shí)踐證明,,大模型出現(xiàn)之前的經(jīng)典人工智能的效果,,嚴(yán)重依賴高質(zhì)量,、大批量的訓(xùn)練數(shù)據(jù),特定的場景,,以及技術(shù)人員對業(yè)務(wù)的充分深度理解,因此很難實(shí)現(xiàn)大范圍的有效推廣,,簡單講:無法成為通用技術(shù)設(shè)施,,很多所謂AI技術(shù)中臺的概念從來都沒有成功過。這些工程工作量大,、繁雜,,且往往都是數(shù)據(jù)治理能否順利產(chǎn)生成效的關(guān)鍵點(diǎn),從而成為數(shù)據(jù)治理難以取得常態(tài)化成效的主要障礙之一。而大模型的出現(xiàn),,則使人工智能成為通用技術(shù)基礎(chǔ)設(shè)施成為可行,。基于大模型技術(shù),可以使上述各類工程從需要通過工具開發(fā),、代碼開發(fā)或者人工執(zhí)行具體過程的“功能”,,升級成為只需要告訴數(shù)據(jù)平臺我需要什么結(jié)果的“任務(wù)”,,即實(shí)現(xiàn)“治理工程任務(wù)化”,,這顯然對數(shù)據(jù)治理工作的實(shí)施難度與質(zhì)效提升有很大的幫助;
l質(zhì)效提增平民化:長期從事數(shù)據(jù)治理工作的人應(yīng)該知道,,如果想提升數(shù)據(jù)治理的質(zhì)效,必須由一批有豐富經(jīng)驗(yàn)、知識與技能的各類業(yè)務(wù)與技術(shù)“專家”才有可能實(shí)現(xiàn)。比如寫SQL,做報(bào)表,,修正數(shù)據(jù),,補(bǔ)充語義等。然而,,數(shù)據(jù)治理的核心目標(biāo)之一卻是“讓企業(yè)所有需要數(shù)據(jù)的主體,,包括業(yè)務(wù),、技術(shù),、運(yùn)維甚至客戶,,都可以方便地使用高質(zhì)量的數(shù)據(jù)”。這些需要數(shù)據(jù)的主體,,他們對數(shù)據(jù)資源質(zhì)效的要求極為廣泛,,并且根本無法以規(guī)則總結(jié)做窮舉性工程抽象。因此,,即使擁有上述這群“專家”,,也只能是達(dá)到尷尬的維持狀態(tài),很難充分滿足實(shí)際需求,。大模型的出現(xiàn),,可以讓任何一個(gè)主體,無論他的技能與知識水平如何,,只要他知道自己需要什么,,只要他知道數(shù)據(jù)質(zhì)效哪里有問題,就可以直接以“自然語言要求”來提增質(zhì)效,。比如最容易理解的NL2SQL,,不需要寫SQL,語言要求就可以自動(dòng)生成SQL,;不需要從數(shù)據(jù)處理全流程出發(fā)修正數(shù)據(jù)錯(cuò)誤,,只需要告訴平臺哪些數(shù)據(jù)是錯(cuò)誤,下次需要怎樣修正,;甚至普通的開發(fā)人員可以以自然語言實(shí)現(xiàn)過去高級開發(fā)人員才能實(shí)現(xiàn)的計(jì)算效率改進(jìn)問題,,普通的運(yùn)維人員可以以自然語言完成高水平的運(yùn)維等,即實(shí)現(xiàn)“質(zhì)效提增平民化”,??上攵姡@一點(diǎn)將使數(shù)據(jù)治理及其使用形成完整的正向提升反饋閉環(huán)與循環(huán),,能夠產(chǎn)生的實(shí)效無疑是巨大的,。
l數(shù)據(jù)資源多模化:一直以來,,數(shù)據(jù)治理的主要對象是結(jié)構(gòu)化數(shù)據(jù),,其所有的體系、流程與工具也大都是針對“表格”。然而,,隨著數(shù)字化的不斷深入,,以及金融科技向著深度沉浸式感知的客戶體驗(yàn)?zāi)芰M(jìn)化時(shí),對全結(jié)構(gòu),、多模態(tài)的數(shù)據(jù)資源進(jìn)行有效的治理已經(jīng)成為迫在眉睫的重要任務(wù),。但是,在金融數(shù)據(jù)體系中,,文音視圖等非結(jié)構(gòu)化數(shù)據(jù)一直沒有也不能得到很好的治理,,這是因?yàn)闊o論是數(shù)據(jù)庫還是更先進(jìn)的湖倉平臺,其主體能力其實(shí)都是面向結(jié)構(gòu)化(包括半結(jié)構(gòu)化)數(shù)據(jù)的,。過去雖然有過很多對非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理治理的嘗試,,但由于技術(shù)限制,大多類似的工作實(shí)質(zhì)上都只是采用結(jié)構(gòu)化數(shù)據(jù)管理工具鏈接文件地址,,準(zhǔn)確地講,,這種技術(shù)方法相當(dāng)于并沒有多模態(tài)數(shù)據(jù)管理治理的能力。大模型技術(shù)體系中的向量化技術(shù),,以及RAG(檢索增強(qiáng)生成),,可以非常有效地將文音視圖等多模態(tài)數(shù)據(jù)資源與結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)融合起來,包括檢索與計(jì)算等,,從而極大的擴(kuò)大了數(shù)據(jù)治理的對象范圍,,實(shí)現(xiàn)“數(shù)據(jù)資源多模化”,。
3.金融數(shù)據(jù)“智”理的工程實(shí)現(xiàn)
從工程實(shí)現(xiàn)的角度來講,,大模型驅(qū)動(dòng)的數(shù)據(jù)“智”理的具體點(diǎn)可以體現(xiàn)在如下幾個(gè)方面:
3.1 數(shù)據(jù)預(yù)處理:在數(shù)據(jù)預(yù)處理領(lǐng)域,大模型可以發(fā)揮明顯作用,。眾所周知,,經(jīng)典的數(shù)據(jù)治理流程中,都無法繞開數(shù)據(jù)倉庫,、湖倉平臺或者數(shù)據(jù)資產(chǎn)平臺的建設(shè),,而這些工作都需要在數(shù)據(jù)資源進(jìn)入平臺的前或后進(jìn)行數(shù)據(jù)預(yù)處理,所謂ETL與ELT,,這是一項(xiàng)極為繁雜,、堅(jiān)巨并且重要的工作,然而卻往往都代表著大量不可避免的手工工作與人工開發(fā),。大模型技術(shù)通過學(xué)習(xí),、并不斷迭代積累人的經(jīng)驗(yàn),可以很大程度上實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)預(yù)處理,,包括標(biāo)注、清洗與分類,從而極大程度地提高數(shù)據(jù)治理的常態(tài)化水平與質(zhì)效,,可以包括:
(1) 對不完整數(shù)據(jù)語義的標(biāo)注,;
(2) 通過缺失值處理、異常值檢測,、數(shù)據(jù)一致性檢查,、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)標(biāo)準(zhǔn)化/歸一化,、數(shù)據(jù)去重,、數(shù)據(jù)合并/編碼、離散化等等手段進(jìn)行數(shù)據(jù)清洗以提升數(shù)據(jù)的準(zhǔn)確性,、完整性和一致性,;
(3) 對數(shù)據(jù)資源進(jìn)行分類,包括業(yè)務(wù)分類,、技術(shù)分類與安全分類,。
3.2 數(shù)據(jù)質(zhì)量:除了數(shù)據(jù)預(yù)處理時(shí)通過清洗提升數(shù)據(jù)質(zhì)量以外,在數(shù)據(jù)治理流程中,,還需要通過數(shù)據(jù)質(zhì)量工具檢測發(fā)現(xiàn)運(yùn)行流程中的數(shù)據(jù)質(zhì)量問題,,這種工具也是經(jīng)典數(shù)據(jù)治理中的重要環(huán)節(jié)之一。然而,,經(jīng)典工具往往是通過窮舉式規(guī)則來實(shí)現(xiàn)檢測的,,先不說這些規(guī)則的豐富性、完整性以及在不同單位之間的可遷移性本身就是個(gè)問題,,當(dāng)質(zhì)量問題發(fā)現(xiàn)出來以后,,工具并不能負(fù)責(zé)問題的修復(fù),改正問題還是需要人來處理,,正所謂“只能發(fā)現(xiàn),,不能修正”;同時(shí),,大模型也可以在自動(dòng)規(guī)則推薦,、異常定位等方面發(fā)揮作用。
(1) 首先,,大模型可以輔助發(fā)現(xiàn)與定位質(zhì)量異常,。通過對數(shù)據(jù)資源整體狀況的學(xué)習(xí),以及對人類修正知識的定向補(bǔ)充,,可以更大范圍,、更加方便地發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,如錯(cuò)誤格式,、標(biāo)準(zhǔn)不符,、重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)、不一致數(shù)據(jù)等,,定位數(shù)據(jù)質(zhì)量問題的源頭,。
(2) 其次,大模型具備自動(dòng)修正數(shù)據(jù)質(zhì)量的能力,。并且這些能力可以隨著大模型工作時(shí)間的積累而持續(xù)增長,。具體來講,大模型可以自動(dòng)識別與修正拼寫錯(cuò)誤,,重復(fù)記錄,,數(shù)據(jù)格式不一致;還可以通過理解數(shù)據(jù)的上下文,,高效處理較為復(fù)雜的數(shù)據(jù)錯(cuò)誤,,例如在數(shù)據(jù)集中時(shí)間、數(shù)值甚至語義序列突然中斷時(shí),,通過分析上下文推斷填補(bǔ),;對有些復(fù)雜問題,大模型可以提出改善建議,,然后通過人工來選擇解決,。
(3) 再者,大模型可以進(jìn)行質(zhì)量規(guī)則與相關(guān)閾值推薦,,自動(dòng)為數(shù)據(jù)對象推薦/匹配表級和字段級的數(shù)據(jù)質(zhì)量規(guī)則,,以及質(zhì)量異常閾值等。
3.3 數(shù)據(jù)標(biāo)準(zhǔn):大模型可以用來推進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)的企業(yè)級高質(zhì)效制定,、充分貫徹與使用維護(hù),。
(1) 首先,就是大模型輔助數(shù)據(jù)標(biāo)準(zhǔn)制定,。這項(xiàng)工作過去主要是由有經(jīng)驗(yàn)的專家,,首先對企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)的內(nèi)容,包括字段的規(guī)范,、業(yè)務(wù)定義,、類別等,各項(xiàng)改進(jìn)的需求,,企業(yè)現(xiàn)存的部門級,、團(tuán)隊(duì)級或者零散的標(biāo)準(zhǔn),以及行業(yè),、國家及國際的標(biāo)準(zhǔn)等等進(jìn)行調(diào)研,、收集、分析與總結(jié),,然后再人工實(shí)施制定,、整合,、校對、審核等工作?,F(xiàn)在,,則可以把以上所有的調(diào)研工作成果當(dāng)作知識喂給大模型,然后讓大模型來自動(dòng)制定企業(yè)級數(shù)據(jù)標(biāo)準(zhǔn),,再進(jìn)行人工審核與反饋優(yōu)化的迭代;如果企業(yè)已經(jīng)有了相關(guān)的標(biāo)準(zhǔn),,則可以用大模型來輔助進(jìn)行審核與完善,。
(2) 再者,就是大模型輔助數(shù)據(jù)標(biāo)準(zhǔn)的貫徹,。前文講過,,其實(shí)過去以來的由人工主導(dǎo)的金融數(shù)據(jù)標(biāo)準(zhǔn)制定工作不能說做的不好,相反來講,,很多相關(guān)工作其實(shí)做的很全面并且實(shí)用,,但主要的問題是很難大范圍貫徹,其中最核心的原因還是人:無法讓需要貫徹標(biāo)準(zhǔn)的所有環(huán)節(jié)都能有數(shù)據(jù)標(biāo)準(zhǔn)專家支持,。那么,,大模型則可以很好的輔助推進(jìn)該問題的解決。首先,,利用大模型對已經(jīng)制定好的數(shù)據(jù)標(biāo)準(zhǔn)(可以是以前人工已經(jīng)制定好的)進(jìn)行學(xué)習(xí),,使得大模型本身成為一個(gè)標(biāo)準(zhǔn)專家,然后在企業(yè)需要實(shí)施標(biāo)準(zhǔn)的所有環(huán)節(jié),,都通過自然語言交互的方式來咨詢與處理數(shù)據(jù)標(biāo)準(zhǔn)問題,,這包括運(yùn)行中的API對接,以及實(shí)時(shí)交互中的問答等多種方式,。這就好像是為每一個(gè)數(shù)據(jù)開發(fā),、運(yùn)維與使用者都配備了一個(gè)數(shù)據(jù)標(biāo)準(zhǔn)專家,其所有產(chǎn)生的效果可想而知,。
(3) 還有就是利用大模型輔助進(jìn)行標(biāo)準(zhǔn)的維護(hù)與更新,。企業(yè)可以監(jiān)測、收集業(yè)務(wù)數(shù)據(jù)的變化,,讓大模型輔助提供標(biāo)準(zhǔn)的新增與變更建議,,自動(dòng)及高效地進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的維護(hù)與更新。
(4) 在實(shí)踐中,,本文認(rèn)為,,對數(shù)據(jù)標(biāo)準(zhǔn)的智能貫徹與維護(hù),要比自動(dòng)制定更為實(shí)用,。
3.4 主動(dòng)元數(shù)據(jù):數(shù)據(jù)標(biāo)準(zhǔn),、數(shù)據(jù)質(zhì)量與元數(shù)據(jù)是經(jīng)典金融數(shù)據(jù)治理的三大核心,,大模型同時(shí)還可以用來加強(qiáng)企業(yè)元數(shù)據(jù)管理的能力,推動(dòng)主動(dòng)元數(shù)據(jù)(Self-Service Data Management)策略的實(shí)現(xiàn)(從2023到2024年,,Gartner Hype Cycle for DataManagement將主動(dòng)元數(shù)據(jù)從黑色提升成灰色),。通過對企業(yè)數(shù)據(jù)資源、以及人的經(jīng)驗(yàn)總結(jié)進(jìn)行全面的學(xué)習(xí)以后,,大模型可以輔助完成元數(shù)據(jù)自動(dòng)生成,,缺失元數(shù)據(jù)的補(bǔ)充,技術(shù)與業(yè)務(wù)語義的填充,,自動(dòng)生成元數(shù)據(jù)摘要,、關(guān)鍵詞描述等工作,從而真正達(dá)到智能元數(shù)據(jù)管理的水平,。具體可以包括如下幾個(gè)方面的工作:
(1)元數(shù)據(jù)側(cè)寫(Data Profiling),、補(bǔ)全與挖掘:在元數(shù)據(jù)治理工作中,大多數(shù)企業(yè)都存在業(yè)務(wù)元數(shù)據(jù)不準(zhǔn)確,、不全面或者缺失的情況,,包括很多表與字段的中文名、業(yè)務(wù)口徑,、描述,、標(biāo)簽、取值說明等字段,,大模型可以通過業(yè)務(wù)資料學(xué)習(xí),、元數(shù)據(jù)側(cè)寫(自動(dòng)收集、分析數(shù)據(jù)結(jié)構(gòu),、內(nèi)容,、質(zhì)量、語義,、使用情況及相互關(guān)系等),、類似元數(shù)據(jù)發(fā)現(xiàn)、挖掘與比對,、自動(dòng)推理與生成等等方法來輔助完成這些工作,。實(shí)際上,人工完成這些工作也是使用這些方法,,但現(xiàn)在,,人工怎么做的,就教給大模型來做,,從而大大提升質(zhì)效,。
(2) 數(shù)據(jù)分類與標(biāo)簽:通過對相關(guān)業(yè)務(wù)分類規(guī)則的學(xué)習(xí),對行業(yè)與國家標(biāo)準(zhǔn)的學(xué)習(xí)(如分級分類標(biāo)準(zhǔn)),,對數(shù)據(jù)內(nèi)容樣例的學(xué)習(xí),,大模型可以自動(dòng)進(jìn)行數(shù)據(jù)的分級分類,、打標(biāo)簽等工作。這些工作眾所周知,,過去都是由人工以人天多少字段為單位來實(shí)現(xiàn)與計(jì)算的,,對于那些元數(shù)據(jù)規(guī)模大、復(fù)雜并且持續(xù)維護(hù)需求高的企業(yè),,大模型起的作用無疑是巨大的,。
(3) 數(shù)據(jù)血緣分析與構(gòu)建:過去,數(shù)據(jù)血緣大都是通過在開發(fā)系統(tǒng)中跟蹤,、收集ETL/ELT加工過程實(shí)現(xiàn)的,,這導(dǎo)致首先不在一個(gè)加工環(huán)節(jié)的數(shù)據(jù)集(如兩個(gè)獨(dú)立的數(shù)據(jù)庫)之間的血緣難以建立,其次即使在同一個(gè)數(shù)據(jù)平臺(如數(shù)倉)上也往往不全面,。大模型可以在對這些已有工作學(xué)習(xí)的基礎(chǔ)上,輔以對代碼,、腳本,、文檔的解析,對相似血緣范式的抽象與挖掘,,給出更加全面的血緣關(guān)系發(fā)現(xiàn)與構(gòu)建建議,。
(4) 數(shù)據(jù)對象與分析方法推薦:大模型可以基于數(shù)據(jù)使用者的業(yè)務(wù)職責(zé)、操作歷史向他們推薦合適的數(shù)據(jù)對象,;還可以再結(jié)合數(shù)據(jù)特征推薦合適的數(shù)據(jù)分析方法,,如如時(shí)間序列、回歸,、線性模型,、地理分析等等。
3.5 非結(jié)構(gòu)化數(shù)據(jù):如前文所述,,對日益增多并且日益重要的非結(jié)構(gòu)化數(shù)據(jù):
(1) 大模型首先可以通過向量化實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理,,這會真正把非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)管理工具有機(jī)融合在一起(而不只是存儲一個(gè)文件地址指針);
(2) 更進(jìn)一步,,大模型還可以從非結(jié)構(gòu)化數(shù)據(jù)中提取出新的數(shù)據(jù)與知識,,如從文音視圖中提取表格、標(biāo)簽和摘要,,從而使這些數(shù)據(jù)易于存儲,、查詢和分析;將客戶反饋,、社交媒體評論和在線論壇的討論轉(zhuǎn)化為結(jié)構(gòu)化的客戶洞察,;對病例報(bào)告和臨床試驗(yàn)結(jié)果等進(jìn)行結(jié)構(gòu)化處理等。
(3) 很顯然,,非結(jié)構(gòu)化數(shù)據(jù)治理功能的具備,,會將金融數(shù)據(jù)治理的能力推進(jìn)到一個(gè)新的階段,。
3.6 數(shù)據(jù)整合和關(guān)聯(lián):大模型還可以幫助發(fā)現(xiàn)數(shù)據(jù)資源之間的關(guān)聯(lián):
(1) 不僅僅發(fā)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)之間的,而且發(fā)現(xiàn)文,、音,、視、圖,、表格,、XML、JSON等各種模態(tài)之間數(shù)據(jù)的內(nèi)在聯(lián)系,。
(2) 通過大模型的加持,,這種工作在即使缺乏明顯關(guān)聯(lián)標(biāo)識的情況下也能有效工作,還可以學(xué)習(xí)數(shù)據(jù)之間的復(fù)雜關(guān)系和模式,,揭示不為人知的洞察,。
(3) 這些能力在之前是很難有效實(shí)現(xiàn)的。通過深度廣泛的數(shù)據(jù)整合與關(guān)聯(lián),,可以挖掘出大量過去無法利用的價(jià)值數(shù)據(jù)與知識,,這無疑對“以用為核”、以最大化價(jià)值釋放的為核心目標(biāo)的現(xiàn)代數(shù)據(jù)治理實(shí)現(xiàn)有著巨大的推動(dòng)作用,。
3.7 數(shù)據(jù)增強(qiáng)和合成數(shù)據(jù)生成:如上還都是利用了大模型超強(qiáng)的分析,、挖掘、理解能力,,而大模型最強(qiáng)大的“生成數(shù)據(jù)”能力自然也會極大地提高金融數(shù)據(jù)治理的水平,,或者說將其推進(jìn)到生成式數(shù)據(jù)“智”理的新階段。具體來講:
(1) 例如對數(shù)據(jù)隱私保護(hù)和模型訓(xùn)練,,自動(dòng)合成訓(xùn)練數(shù)據(jù)并輔助樣本標(biāo)準(zhǔn),。這些工作一般都是人工準(zhǔn)備與標(biāo)注的,并且對從事人工的“人”要求又極高,,有時(shí)需要技術(shù)與業(yè)務(wù)能力兼?zhèn)?,所以工作量極大并果往往效果不佳。現(xiàn)在,,企業(yè)可以用大模型來學(xué)習(xí)過去優(yōu)秀的訓(xùn)練數(shù)據(jù)集,,把好的訓(xùn)練數(shù)據(jù)集的標(biāo)準(zhǔn)通過提示詞或者微調(diào)的方式告知大模型,將大量的知識存入向量數(shù)據(jù)庫以備RAG使用等等,,這樣則可以合成高質(zhì)量交易數(shù)據(jù),,合成消費(fèi)記錄、信用記錄,,不良記錄,,自動(dòng)完成準(zhǔn)確的樣本標(biāo)注等等;
(2) 除了用于訓(xùn)練,,大模型還可以用來自動(dòng)生成測試數(shù)據(jù),,脫敏數(shù)據(jù)等,。
(3) 很顯然,除了以上所列,,大模型的數(shù)據(jù)“智”理能力是隨著使用與企業(yè)業(yè)務(wù)變化不斷自適應(yīng)與自動(dòng)加強(qiáng)的,,這與依賴于能力靜態(tài)的工具、以及專家經(jīng)驗(yàn)及手工工作有著本質(zhì)性不同的發(fā)展前景與地位,。
4.結(jié)語
綜上所述,,大模型完全可以推動(dòng)傳統(tǒng)數(shù)據(jù)治理向脫離人工的自動(dòng)化、隨著業(yè)務(wù)變化自主迭代的自適應(yīng)化的全新智能階段躍進(jìn),,以實(shí)現(xiàn)一個(gè)消費(fèi)常態(tài)化,、功能任務(wù)化、增效平民化與數(shù)據(jù)多?;男乱淮鷶?shù)據(jù)智理“體”系,。這其中核心的原因就是:只要是在現(xiàn)實(shí)工作與工程中需要依賴人工經(jīng)驗(yàn)與手工工作的環(huán)節(jié),都可以通過大模型預(yù)制化,、自動(dòng)化并且持續(xù)自適應(yīng)迭代強(qiáng)化,。而“人”的因素其實(shí)是長期以來金融數(shù)據(jù)治理處于“持續(xù)關(guān)注,一直欠佳”的尷尬境地的核心原因,。更進(jìn)一步講,數(shù)據(jù)“智”理體系已經(jīng)在范圍上大大突破了傳統(tǒng)數(shù)據(jù)治理的范疇,,而是代表了金融機(jī)構(gòu)在數(shù)字化時(shí)代的新型“數(shù)智融合”數(shù)據(jù)體系,。
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請注明出處:http://lequren.com/1113722.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。