來源:IT168企業(yè)級頻道
摘要:長期以來,,很多金融機構的數(shù)據治理效果一直不盡人意,,這已經成為金融科技公認的重要需求與固有難題。以大模型為代表的新一代人工智能有望徹底改變這種狀態(tài),,它通過以自然語言而非專業(yè)技術驅動的人機交互界面,,以及對人類專業(yè)經驗與流程執(zhí)行效果的良好模擬,,能有效解決傳統(tǒng)數(shù)據治理體系與工程中的諸多難點,大力推動人工治理走向自主“智”理,,并最終形成新一代的金融數(shù)據體系,。
1.前言
數(shù)據治理長年以來一直是最重要的金融科技領域之一,,從本世紀初金融機構開始實施企業(yè)級數(shù)據倉庫(EDW)開始就一直被持續(xù)關注,,并不斷進行著相關的建設與改進活動,,包括數(shù)據標準,、數(shù)據質量,、元數(shù)據管理工程,、相關的咨詢規(guī)劃等工作,,以及近十幾年來隨著大數(shù)據技術普及而興起的數(shù)據中臺,、數(shù)據資產管理等,都屬于數(shù)據治理的范疇或者與之緊密相關,。同時,,數(shù)據治理長年以來也是金融科技系統(tǒng)中最為尷尬的難題。它不像很多業(yè)務目標非常清晰項目與產品實施,,效果立桿見影,。對大部分金融機構來講,,數(shù)據治理一直處于這樣的境況:數(shù)據治理狀態(tài)不好一直確切地影響著業(yè)務質效,,因此不斷受到重視;數(shù)據治理項目長年持續(xù)實施,,可帶來的效果總是與預期不付,。例如咨詢規(guī)劃相當多起了高調,后續(xù)落實不力,;數(shù)據標準項目往往形成了全面一致的本子,,但卻難以大范圍切實推廣,;數(shù)據質量工具與流程不斷引進,,但數(shù)據質量問題一直不能得到上下、內外一致順暢的解決,;元數(shù)據管理往往限于一域,,企業(yè)級水平很難達到,;數(shù)據資產,、數(shù)據中臺等本質上也都是為了讓業(yè)務更方便地使用數(shù)據而建設的新孤島,對數(shù)據治理水平并沒有實際的提升…..,??傊喈敳糠纸鹑跈C構的數(shù)據治理工作就是長期處于這樣一直在努力,、一直不滿意的尷尬狀態(tài)中,。
仔細分析就可以發(fā)現(xiàn),金融數(shù)據治理的這種狀態(tài)其實是正常并且合乎邏輯的,,也就是說,,如果沒有什么明顯的驅動力,大概率大家會一直這樣持續(xù)下去,。為什么呢,?數(shù)據治理與實施具有明確業(yè)務目標的項目不同,除了技術與工具之外,,它很大程度上都依賴于“人”,,這包括人的經驗,人的手工,,人對流程的執(zhí)行力,、配合度等。例如,,對數(shù)據質量問題,,工具往往只能通過規(guī)則協(xié)助發(fā)現(xiàn)問題,卻不能解決問題,,解決問題需要靠人的經驗與精力,;數(shù)據標準的執(zhí)行,也需要自頂而下,、各平行部門的人配合協(xié)調執(zhí)行流程;數(shù)據處理中的標注,、分類,,元數(shù)據的填充,、生成等也主要依靠人工。這些都還只是一些典型的問題,,更不說如何能從數(shù)據資源中發(fā)現(xiàn)更深更廣層次的關聯(lián)知識,,如何從現(xiàn)有數(shù)據中產生有更廣泛用途的增強數(shù)據等數(shù)據治理的高階提升,不依靠人工就更加無法實現(xiàn)了,??梢赃@樣說,只要人的作用在數(shù)據治理中無法減輕,,數(shù)據治理的尷尬現(xiàn)狀就很難得到根本的改善,。
本文認為,2022年底開始迅速流行起來的新型人工智能,,即大模型技術,,可以從根本上改變金融數(shù)據治理的上述現(xiàn)狀,將治理推進到“智”理,,同時催生新一代的數(shù)智融合金融科技體系,。其中最核心的原因就是大模型技術可以大幅度降低數(shù)據治理對“人”的經驗與手工工作的依賴,這是經典人工智能無法做到的,。
可以這樣描述:傳統(tǒng)數(shù)據治理工具只通過流程與顯式規(guī)則控制,,無法真正、自主提升數(shù)據治理水平,,即只能發(fā)現(xiàn),,無法提升;同時難以擺脫人工對數(shù)據架構,、分布,、標準、質量,、元數(shù)據,、信息化(報表)等數(shù)據治理全生命周期的大量干預。而大模型將改變數(shù)據治理過份依賴人工現(xiàn)象,,實現(xiàn)由“專家+工具”治理向自主“智”理過度,,并可以按需生成大數(shù)據,形成數(shù)據治理閉環(huán),。
2.金融數(shù)據“智”理的宏觀要素
從宏觀層面來講,,大模型驅動的數(shù)據“智”理作用可以體現(xiàn)在如下幾個方面:
l數(shù)據消費常態(tài)化:數(shù)據“智”理可以將傳統(tǒng)治理“以管為核”的狀態(tài)真正推進到“以管為基,以用為核”的數(shù)據消費常態(tài)化的高級階段?,F(xiàn)代數(shù)據“智”理的核心目標是數(shù)據消費,,即“用好”,而不只是“管好”。雖然說過去數(shù)據資產化的目標也是“用”,,但經驗告訴我們這從來沒有真正實現(xiàn)過,。為了解決業(yè)務無法有效使用數(shù)據平臺的問題,數(shù)據資產化項目往往都是通過面向業(yè)務主題重新組織傳統(tǒng)數(shù)據平臺中過于技術化的數(shù)據集,,通過一大推的數(shù)據加工工程建立一個業(yè)務人員能看懂,、方便用的新業(yè)務數(shù)據平臺(包括數(shù)據集與自助探索工具)。但這個過程中最關鍵的點,,即技術到業(yè)務的變換從來都無法主體常態(tài)化,、自動化,無論如何總結積累,,都無法避免大量的人工干預,,以及隨著生產數(shù)據不斷增長更新帶來的重建與維護,導致數(shù)據資產化平臺成為了一個新的亟需“治理”的數(shù)據集合,。而大模型數(shù)據“智”理則可以將數(shù)據屬性從技術到業(yè)務的轉移與轉換變成SmartMove與AutoShift,,成為面向業(yè)務增長與擴展自主適應與自動執(zhí)行的常態(tài)機制;
l治理工程任務化:數(shù)據治理實施中,,有大量不可避免的工程性工作,,例如進入數(shù)據平臺之前對數(shù)據的清洗,空白值填充,,去重,,合并;對元數(shù)據未知業(yè)務語義的補充,;對不合格數(shù)據的檢測與修正……等等,。這些工作有的依靠規(guī)則性工具輔助人工在一定程度上提升效率,有的需要人工依次定制腳本,,有的則必須純粹依靠人工,。當然,也有很多通過經典自然語言處理NLP技術進行語義分析的嘗試,,但效果都不是很理想,。實踐證明,大模型出現(xiàn)之前的經典人工智能的效果,,嚴重依賴高質量,、大批量的訓練數(shù)據,特定的場景,,以及技術人員對業(yè)務的充分深度理解,,因此很難實現(xiàn)大范圍的有效推廣,簡單講:無法成為通用技術設施,,很多所謂AI技術中臺的概念從來都沒有成功過,。這些工程工作量大,、繁雜,且往往都是數(shù)據治理能否順利產生成效的關鍵點,,從而成為數(shù)據治理難以取得常態(tài)化成效的主要障礙之一,。而大模型的出現(xiàn),,則使人工智能成為通用技術基礎設施成為可行,。基于大模型技術,,可以使上述各類工程從需要通過工具開發(fā),、代碼開發(fā)或者人工執(zhí)行具體過程的“功能”,升級成為只需要告訴數(shù)據平臺我需要什么結果的“任務”,,即實現(xiàn)“治理工程任務化”,,這顯然對數(shù)據治理工作的實施難度與質效提升有很大的幫助;
l質效提增平民化:長期從事數(shù)據治理工作的人應該知道,,如果想提升數(shù)據治理的質效,,必須由一批有豐富經驗、知識與技能的各類業(yè)務與技術“專家”才有可能實現(xiàn),。比如寫SQL,,做報表,修正數(shù)據,,補充語義等,。然而,數(shù)據治理的核心目標之一卻是“讓企業(yè)所有需要數(shù)據的主體,,包括業(yè)務,、技術、運維甚至客戶,,都可以方便地使用高質量的數(shù)據”,。這些需要數(shù)據的主體,他們對數(shù)據資源質效的要求極為廣泛,,并且根本無法以規(guī)則總結做窮舉性工程抽象,。因此,即使擁有上述這群“專家”,,也只能是達到尷尬的維持狀態(tài),,很難充分滿足實際需求。大模型的出現(xiàn),,可以讓任何一個主體,,無論他的技能與知識水平如何,只要他知道自己需要什么,,只要他知道數(shù)據質效哪里有問題,,就可以直接以“自然語言要求”來提增質效。比如最容易理解的NL2SQL,不需要寫SQL,,語言要求就可以自動生成SQL,;不需要從數(shù)據處理全流程出發(fā)修正數(shù)據錯誤,只需要告訴平臺哪些數(shù)據是錯誤,,下次需要怎樣修正,;甚至普通的開發(fā)人員可以以自然語言實現(xiàn)過去高級開發(fā)人員才能實現(xiàn)的計算效率改進問題,普通的運維人員可以以自然語言完成高水平的運維等,,即實現(xiàn)“質效提增平民化”,。可想而見,,這一點將使數(shù)據治理及其使用形成完整的正向提升反饋閉環(huán)與循環(huán),,能夠產生的實效無疑是巨大的。
l數(shù)據資源多?;阂恢币詠?,數(shù)據治理的主要對象是結構化數(shù)據,其所有的體系,、流程與工具也大都是針對“表格”,。然而,隨著數(shù)字化的不斷深入,,以及金融科技向著深度沉浸式感知的客戶體驗能力進化時,,對全結構、多模態(tài)的數(shù)據資源進行有效的治理已經成為迫在眉睫的重要任務,。但是,,在金融數(shù)據體系中,文音視圖等非結構化數(shù)據一直沒有也不能得到很好的治理,,這是因為無論是數(shù)據庫還是更先進的湖倉平臺,,其主體能力其實都是面向結構化(包括半結構化)數(shù)據的。過去雖然有過很多對非結構化數(shù)據統(tǒng)一管理治理的嘗試,,但由于技術限制,,大多類似的工作實質上都只是采用結構化數(shù)據管理工具鏈接文件地址,準確地講,,這種技術方法相當于并沒有多模態(tài)數(shù)據管理治理的能力,。大模型技術體系中的向量化技術,以及RAG(檢索增強生成),,可以非常有效地將文音視圖等多模態(tài)數(shù)據資源與結構化數(shù)據管理技術融合起來,,包括檢索與計算等,從而極大的擴大了數(shù)據治理的對象范圍,,實現(xiàn)“數(shù)據資源多?;?。
3.金融數(shù)據“智”理的工程實現(xiàn)
從工程實現(xiàn)的角度來講,大模型驅動的數(shù)據“智”理的具體點可以體現(xiàn)在如下幾個方面:
3.1 數(shù)據預處理:在數(shù)據預處理領域,,大模型可以發(fā)揮明顯作用,。眾所周知,經典的數(shù)據治理流程中,,都無法繞開數(shù)據倉庫,、湖倉平臺或者數(shù)據資產平臺的建設,而這些工作都需要在數(shù)據資源進入平臺的前或后進行數(shù)據預處理,,所謂ETL與ELT,,這是一項極為繁雜、堅巨并且重要的工作,,然而卻往往都代表著大量不可避免的手工工作與人工開發(fā)。大模型技術通過學習,、并不斷迭代積累人的經驗,,可以很大程度上實現(xiàn)自動化的數(shù)據預處理,包括標注,、清洗與分類,,從而極大程度地提高數(shù)據治理的常態(tài)化水平與質效,可以包括:
(1) 對不完整數(shù)據語義的標注,;
(2) 通過缺失值處理,、異常值檢測、數(shù)據一致性檢查,、數(shù)據類型轉換,、數(shù)據標準化/歸一化、數(shù)據去重,、數(shù)據合并/編碼,、離散化等等手段進行數(shù)據清洗以提升數(shù)據的準確性、完整性和一致性,;
(3) 對數(shù)據資源進行分類,,包括業(yè)務分類、技術分類與安全分類,。
3.2 數(shù)據質量:除了數(shù)據預處理時通過清洗提升數(shù)據質量以外,,在數(shù)據治理流程中,還需要通過數(shù)據質量工具檢測發(fā)現(xiàn)運行流程中的數(shù)據質量問題,,這種工具也是經典數(shù)據治理中的重要環(huán)節(jié)之一,。然而,經典工具往往是通過窮舉式規(guī)則來實現(xiàn)檢測的,,先不說這些規(guī)則的豐富性,、完整性以及在不同單位之間的可遷移性本身就是個問題,,當質量問題發(fā)現(xiàn)出來以后,工具并不能負責問題的修復,,改正問題還是需要人來處理,,正所謂“只能發(fā)現(xiàn),不能修正”,;同時,,大模型也可以在自動規(guī)則推薦、異常定位等方面發(fā)揮作用,。
(1) 首先,,大模型可以輔助發(fā)現(xiàn)與定位質量異常。通過對數(shù)據資源整體狀況的學習,,以及對人類修正知識的定向補充,,可以更大范圍、更加方便地發(fā)現(xiàn)數(shù)據質量問題,,如錯誤格式,、標準不符、重復數(shù)據,、缺失數(shù)據,、不一致數(shù)據等,定位數(shù)據質量問題的源頭,。
(2) 其次,,大模型具備自動修正數(shù)據質量的能力。并且這些能力可以隨著大模型工作時間的積累而持續(xù)增長,。具體來講,,大模型可以自動識別與修正拼寫錯誤,重復記錄,,數(shù)據格式不一致,;還可以通過理解數(shù)據的上下文,高效處理較為復雜的數(shù)據錯誤,,例如在數(shù)據集中時間,、數(shù)值甚至語義序列突然中斷時,通過分析上下文推斷填補,;對有些復雜問題,,大模型可以提出改善建議,然后通過人工來選擇解決,。
(3) 再者,,大模型可以進行質量規(guī)則與相關閾值推薦,自動為數(shù)據對象推薦/匹配表級和字段級的數(shù)據質量規(guī)則,,以及質量異常閾值等,。
3.3 數(shù)據標準:大模型可以用來推進數(shù)據標準的企業(yè)級高質效制定,、充分貫徹與使用維護。
(1) 首先,,就是大模型輔助數(shù)據標準制定,。這項工作過去主要是由有經驗的專家,首先對企業(yè)數(shù)據標準的內容,,包括字段的規(guī)范,、業(yè)務定義、類別等,,各項改進的需求,,企業(yè)現(xiàn)存的部門級、團隊級或者零散的標準,,以及行業(yè),、國家及國際的標準等等進行調研、收集,、分析與總結,,然后再人工實施制定、整合,、校對、審核等工作?,F(xiàn)在,,則可以把以上所有的調研工作成果當作知識喂給大模型,然后讓大模型來自動制定企業(yè)級數(shù)據標準,,再進行人工審核與反饋優(yōu)化的迭代,;如果企業(yè)已經有了相關的標準,則可以用大模型來輔助進行審核與完善,。
(2) 再者,,就是大模型輔助數(shù)據標準的貫徹。前文講過,,其實過去以來的由人工主導的金融數(shù)據標準制定工作不能說做的不好,,相反來講,很多相關工作其實做的很全面并且實用,,但主要的問題是很難大范圍貫徹,,其中最核心的原因還是人:無法讓需要貫徹標準的所有環(huán)節(jié)都能有數(shù)據標準專家支持。那么,,大模型則可以很好的輔助推進該問題的解決,。首先,利用大模型對已經制定好的數(shù)據標準(可以是以前人工已經制定好的)進行學習,,使得大模型本身成為一個標準專家,,然后在企業(yè)需要實施標準的所有環(huán)節(jié),,都通過自然語言交互的方式來咨詢與處理數(shù)據標準問題,這包括運行中的API對接,,以及實時交互中的問答等多種方式,。這就好像是為每一個數(shù)據開發(fā)、運維與使用者都配備了一個數(shù)據標準專家,,其所有產生的效果可想而知,。
(3) 還有就是利用大模型輔助進行標準的維護與更新。企業(yè)可以監(jiān)測,、收集業(yè)務數(shù)據的變化,,讓大模型輔助提供標準的新增與變更建議,自動及高效地進行數(shù)據標準的維護與更新,。
(4) 在實踐中,,本文認為,對數(shù)據標準的智能貫徹與維護,,要比自動制定更為實用,。
3.4 主動元數(shù)據:數(shù)據標準、數(shù)據質量與元數(shù)據是經典金融數(shù)據治理的三大核心,,大模型同時還可以用來加強企業(yè)元數(shù)據管理的能力,,推動主動元數(shù)據(Self-Service Data Management)策略的實現(xiàn)(從2023到2024年,Gartner Hype Cycle for DataManagement將主動元數(shù)據從黑色提升成灰色),。通過對企業(yè)數(shù)據資源,、以及人的經驗總結進行全面的學習以后,大模型可以輔助完成元數(shù)據自動生成,,缺失元數(shù)據的補充,,技術與業(yè)務語義的填充,自動生成元數(shù)據摘要,、關鍵詞描述等工作,,從而真正達到智能元數(shù)據管理的水平。具體可以包括如下幾個方面的工作:
(1)元數(shù)據側寫(Data Profiling),、補全與挖掘:在元數(shù)據治理工作中,,大多數(shù)企業(yè)都存在業(yè)務元數(shù)據不準確、不全面或者缺失的情況,,包括很多表與字段的中文名,、業(yè)務口徑、描述,、標簽,、取值說明等字段,大模型可以通過業(yè)務資料學習,、元數(shù)據側寫(自動收集,、分析數(shù)據結構,、內容、質量,、語義,、使用情況及相互關系等)、類似元數(shù)據發(fā)現(xiàn),、挖掘與比對,、自動推理與生成等等方法來輔助完成這些工作。實際上,,人工完成這些工作也是使用這些方法,,但現(xiàn)在,人工怎么做的,,就教給大模型來做,,從而大大提升質效。
(2) 數(shù)據分類與標簽:通過對相關業(yè)務分類規(guī)則的學習,,對行業(yè)與國家標準的學習(如分級分類標準),,對數(shù)據內容樣例的學習,大模型可以自動進行數(shù)據的分級分類,、打標簽等工作,。這些工作眾所周知,過去都是由人工以人天多少字段為單位來實現(xiàn)與計算的,,對于那些元數(shù)據規(guī)模大,、復雜并且持續(xù)維護需求高的企業(yè),大模型起的作用無疑是巨大的,。
(3) 數(shù)據血緣分析與構建:過去,數(shù)據血緣大都是通過在開發(fā)系統(tǒng)中跟蹤,、收集ETL/ELT加工過程實現(xiàn)的,,這導致首先不在一個加工環(huán)節(jié)的數(shù)據集(如兩個獨立的數(shù)據庫)之間的血緣難以建立,其次即使在同一個數(shù)據平臺(如數(shù)倉)上也往往不全面,。大模型可以在對這些已有工作學習的基礎上,,輔以對代碼、腳本,、文檔的解析,,對相似血緣范式的抽象與挖掘,給出更加全面的血緣關系發(fā)現(xiàn)與構建建議,。
(4) 數(shù)據對象與分析方法推薦:大模型可以基于數(shù)據使用者的業(yè)務職責,、操作歷史向他們推薦合適的數(shù)據對象;還可以再結合數(shù)據特征推薦合適的數(shù)據分析方法,,如如時間序列,、回歸,、線性模型、地理分析等等,。
3.5 非結構化數(shù)據:如前文所述,,對日益增多并且日益重要的非結構化數(shù)據:
(1) 大模型首先可以通過向量化實現(xiàn)非結構化數(shù)據的結構化處理,這會真正把非結構化數(shù)據與結構化數(shù)據管理工具有機融合在一起(而不只是存儲一個文件地址指針),;
(2) 更進一步,,大模型還可以從非結構化數(shù)據中提取出新的數(shù)據與知識,如從文音視圖中提取表格,、標簽和摘要,,從而使這些數(shù)據易于存儲、查詢和分析,;將客戶反饋,、社交媒體評論和在線論壇的討論轉化為結構化的客戶洞察;對病例報告和臨床試驗結果等進行結構化處理等,。
(3) 很顯然,,非結構化數(shù)據治理功能的具備,會將金融數(shù)據治理的能力推進到一個新的階段,。
3.6 數(shù)據整合和關聯(lián):大模型還可以幫助發(fā)現(xiàn)數(shù)據資源之間的關聯(lián):
(1) 不僅僅發(fā)現(xiàn)結構化數(shù)據之間的,,而且發(fā)現(xiàn)文、音,、視,、圖、表格,、XML,、JSON等各種模態(tài)之間數(shù)據的內在聯(lián)系。
(2) 通過大模型的加持,,這種工作在即使缺乏明顯關聯(lián)標識的情況下也能有效工作,,還可以學習數(shù)據之間的復雜關系和模式,揭示不為人知的洞察,。
(3) 這些能力在之前是很難有效實現(xiàn)的,。通過深度廣泛的數(shù)據整合與關聯(lián),可以挖掘出大量過去無法利用的價值數(shù)據與知識,,這無疑對“以用為核”,、以最大化價值釋放的為核心目標的現(xiàn)代數(shù)據治理實現(xiàn)有著巨大的推動作用。
3.7 數(shù)據增強和合成數(shù)據生成:如上還都是利用了大模型超強的分析,、挖掘,、理解能力,而大模型最強大的“生成數(shù)據”能力自然也會極大地提高金融數(shù)據治理的水平,或者說將其推進到生成式數(shù)據“智”理的新階段,。具體來講:
(1) 例如對數(shù)據隱私保護和模型訓練,,自動合成訓練數(shù)據并輔助樣本標準。這些工作一般都是人工準備與標注的,,并且對從事人工的“人”要求又極高,,有時需要技術與業(yè)務能力兼?zhèn)洌怨ぷ髁繕O大并果往往效果不佳?,F(xiàn)在,,企業(yè)可以用大模型來學習過去優(yōu)秀的訓練數(shù)據集,把好的訓練數(shù)據集的標準通過提示詞或者微調的方式告知大模型,,將大量的知識存入向量數(shù)據庫以備RAG使用等等,,這樣則可以合成高質量交易數(shù)據,合成消費記錄,、信用記錄,,不良記錄,自動完成準確的樣本標注等等,;
(2) 除了用于訓練,,大模型還可以用來自動生成測試數(shù)據,脫敏數(shù)據等,。
(3) 很顯然,,除了以上所列,大模型的數(shù)據“智”理能力是隨著使用與企業(yè)業(yè)務變化不斷自適應與自動加強的,,這與依賴于能力靜態(tài)的工具,、以及專家經驗及手工工作有著本質性不同的發(fā)展前景與地位。
4.結語
綜上所述,,大模型完全可以推動傳統(tǒng)數(shù)據治理向脫離人工的自動化,、隨著業(yè)務變化自主迭代的自適應化的全新智能階段躍進,以實現(xiàn)一個消費常態(tài)化,、功能任務化,、增效平民化與數(shù)據多模化的新一代數(shù)據智理“體”系,。這其中核心的原因就是:只要是在現(xiàn)實工作與工程中需要依賴人工經驗與手工工作的環(huán)節(jié),都可以通過大模型預制化,、自動化并且持續(xù)自適應迭代強化,。而“人”的因素其實是長期以來金融數(shù)據治理處于“持續(xù)關注,一直欠佳”的尷尬境地的核心原因,。更進一步講,,數(shù)據“智”理體系已經在范圍上大大突破了傳統(tǒng)數(shù)據治理的范疇,而是代表了金融機構在數(shù)字化時代的新型“數(shù)智融合”數(shù)據體系。
免責聲明:本文來自網絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1113722.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。