來源:華略智庫
作者:王澤宇 華略智庫新媒體部
來源:上海華略智庫(ID:HUALUETT)
人工智能的浪潮正以不可阻擋之勢席卷全球,,它在各個領域的應用不斷刷新著我們的認知。本文通過測評三大國產AI大模型在決策咨詢領域的表現,深入探討人工智能能否取代人類咨詢師,。讓我們跟隨本文,一起來看看在這場較量中,,誰能更勝一籌,?
全文3894字,閱讀約10分鐘
2022年11月,,ChatGPT的橫空出世,,將人工智能發(fā)展推向了一個新的時代,,各大互聯(lián)網科技企業(yè)都開始將其納入自身核心發(fā)展戰(zhàn)略,許多以人工智能為依托的初創(chuàng)企業(yè)也如雨后春筍般涌現出來,。一年多時間,,國產人工智能大模型的發(fā)展速度之快、應用行業(yè)之廣超出想象,。比如,,近期科大訊飛發(fā)布了訊飛星火大模型4.0,在文本生成,、語言理解、知識問答,、邏輯推理,、數學能力、代碼能力,、多模態(tài)能力等七大核心能力方面獲得全面提升,,整體超越GPT-4 Turbo。
2023年,,麥肯錫曾發(fā)布了一份題為《生成式人工智能的經濟潛力》的研究報告,,稱在2030年至2060年間,或有50%的職業(yè)會逐步被人工智能取代,。作為一名智庫的從業(yè)者,,我也有一絲隱憂:未來,決策咨詢會不會被人工智能取代,?為此,,我們設計了此次測評,來看看中文大語言模型做決策咨詢,,會不會比我們更優(yōu)秀,。
憑借我們廣泛的市場經驗和客戶反饋來看,一項優(yōu)秀的決策咨詢成果通常需要同時具備三個方面:
——清晰的邏輯:把事說清,做到一目了然,;
——有趣的靈魂:思想為王,,做到一針見血;
——好看的皮囊:表達優(yōu)美,,做到一見傾心,。
本次測評也將會從以上三個方面重點展開。
在測評對象方面,,我們綜合技術水平,、用戶體量,、市場口碑等因素選擇了三款大模型產品參與本次測評,它們是:百度的文心大模型,、科大訊飛的訊飛星火,、月之暗面的Kimi智能助手。
首先,,百度作為中國領先的科技公司之一,,在人工智能領域的研發(fā)投入非常龐大。在2022年李彥宏就曾透露,,百度10年內在人工智能領域累計投入超過1000億用于研發(fā),,每年研發(fā)占比都超過15%,這種不遺余力的投入最終也體現在了文心一言優(yōu)異的表現上,。文心大模型在多項自然語言處理任務中的表現卓越,,如文本生成、機器翻譯和語義理解,。截至今年4月份,,文心一言的用戶數突破了2億,API日均調用量也突破了2億,,服務客戶數達到了8.5萬,,利用千帆平臺開發(fā)的AI原生應用數超過了19萬。
其次,,科大訊飛是中國語音技術領域的龍頭企業(yè),,其技術廣泛應用于教育、醫(yī)療等多個行業(yè),。訊飛星火大模型以其在語音識別和智能對話系統(tǒng)方面的領先技術而聞名,。自2023年9月至今年6月底,訊飛星火APP在安卓公開市場累計下載量達1.31億次,,在國內工具類通用大模型App中排名第一,。值得一提的是,訊飛星火大模型在教育,、醫(yī)療等細分行業(yè)的專業(yè)應用也覆蓋了超過2000萬用戶,。
最后,月之暗面雖然創(chuàng)立僅一年多,,但憑借Kimi智能助手的出色表現迅速在市場上崛起,,贏得眾多資本青睞,其當前估值已經高達195億人民幣,。今年3月18日,,月之暗面曾宣布在大模型長上下文窗口技術上取得新的突破,Kimi智能助手支持無損上下文長度從最初的20多萬字,,擴容到200萬字,。該消息公布后,,Kimi關注度一路走高,一度擠爆了服務器,。今年4月,,Kimi智能助手網頁版訪問量達到2004萬,較3月上漲60.2%,,訪問量一度超過文心一言,,排在國內同類產品的第一位。
清晰的邏輯
“清晰的邏輯”在決策咨詢中體現為思想的穿透力和判斷性,,要求咨詢師基于深厚的行業(yè)知識和專業(yè)背景,提供清晰的見解和分析,,確保思想觀點與實際情況相吻合,,確保內容真實、可驗證,。
為驗證AI的上述能力,我們從“批判的武器與武器的批判”和“鋼鐵的領袖與領袖的鋼鐵”中獲得靈感,,設計了以下問題:
“在產業(yè)培育中,,你如何理解‘把握未來的產業(yè)’和‘把握產業(yè)的未來’?字數限制在500字以內,?!?/p>
以下是各個大模型的回答:
從上述回答中可以看出,三個大模型均展現出了較高的理解能力,,都區(qū)分了“未來的產業(yè)”和“產業(yè)的未來”的概念區(qū)別,,前者“未來產業(yè)”,關注新興產業(yè)趨勢的洞察和前瞻性布局,,強調技術發(fā)展賽道的變化,;后者“產業(yè)未來”則側重現有產業(yè)的持續(xù)發(fā)展和升級。不過受制于文章篇幅,,我們此次環(huán)節(jié)沒有引入更多問題,,大模型的知識面廣度仍有待進一步考察。
有趣的靈魂
“有趣的靈魂”在決策咨詢中體現為思想的洞察力和準確性,,要求咨詢師基于信息的充分挖掘,、科學分析和系統(tǒng)提煉,提供具有說服力的見解和分析,,能夠從不同角度佐證主要觀點,,確保報告的權威性和可信度,。
為驗證AI的上述能力,我們設計了以下問題:“長三角一體化上升為國家戰(zhàn)略五年來,,區(qū)域間的差距是擴大還是縮?。空埥Y合實際數據和依據作出回答,?!?/p>
以下是各個大模型的回答:
文心大模型是三個大模型中表現最好的,它嘗試依托實際數據和案例,,從經濟水平,、科創(chuàng)能力、基礎設施,、生態(tài)保護四個方面證明區(qū)域間差距正逐步縮小這一觀點,。尤其是在經濟水平和生態(tài)保護兩個方面,引用了中心區(qū)城鄉(xiāng)居民收入差距,、中心區(qū)人均GDP與全域人均GDP差距的數據以及水鄉(xiāng)客廳的案例,。不過其在其他兩個方面所展示的數據與論點關聯(lián)性依舊不高,略顯薄弱,,比如TA提到長三角地區(qū)在基礎設施建設方面取得顯著進展,,但并沒有給出具體案例——滬蘇雙11號線無縫對接,或是打通省界“斷頭路”項目等,。
訊飛星火的回答從宏觀層面展現了長三角地區(qū)五年來在經濟發(fā)展,、對外開放、協(xié)同創(chuàng)新,、產業(yè)集群等領域取得的成就,,但并沒有切入問題本身,展示長三角區(qū)域間差距擴大或縮小的證據,,得出的結論與實際論證過程也不盡相符,。
Kimi智能助手的回答列舉了長三角地區(qū)一部分的區(qū)域發(fā)展現狀,但也沒有回答差距是擴大還是縮小,,僅在公共服務領域上提到教育,、醫(yī)療衛(wèi)生方面差異逐漸縮小,社會保障的內部差距有所擴大,,但并沒有列舉具體數據和材料論證這一觀點,,得出的結論說服力不高。
總體來看,,三大模型在該問題上的完成度較差,,訊飛星火和Kimi智能助手并沒有很好地理解問題,,文心大模型在案例引用上展現出了亮點,但仍舊不足,。
好看的皮囊
“好看的皮囊”在決策咨詢中體現為思想的表現力和可讀性,,要求咨詢師運用清晰、精煉且具有創(chuàng)造力的表達方式,,以清晰的結構,、優(yōu)美的語言和工整的行文,使得復雜信息變得易于理解和接受,,讓讀者能夠快速抓住重點,,提升整體閱讀體驗。
為驗證AI的上述能力,,我們設計了以下問題:“請為浙江省嘉善縣撰寫一篇熱情洋溢的城市推介詞,,吸引和留住青年人才,以詩歌為標題,,字數限制在1000字以內,。”
以下是各個大模型的回答:
文心大模型的文章以“嘉善,,詩畫江南的青春樂章”為題,從歷史,、自然風貌,、文化底蘊、創(chuàng)新發(fā)展和人文關懷五個方面詳細描繪了嘉善的獨特魅力,,最后以喊話青年人才為結尾,,其亮點在于使用“嘉善之美、嘉善之韻,、嘉善之活,、嘉善之魅”引出每一段,并且點出了嘉善作為吳文化發(fā)源地的特色,。
訊飛星火的文章以“嘉善,,詩意棲居的江南水鄉(xiāng)”為主題,主要從自然風景,、歷史文化描繪了嘉善的獨特魅力,,并重點講述了嘉善為青年才俊提供的優(yōu)良資源和廣闊發(fā)展空間。Kimi智能助手的文章以“江南夢,,嘉善情——詩意棲居,,青春啟航”為題,,從歷史文化、創(chuàng)新空間,、教育資源,、生活環(huán)境、發(fā)展機遇五個方面描繪了嘉善的亮點,。
三篇文章總體上結構清晰且各具特色,,展現出了人工智能在結構梳理上的較高能力。但從細節(jié)來看,,三者在語言組織上還略顯生硬,,缺乏韻味,屬于“不耐看”的類型,。最大的問題在于,,三篇文章自始至終沒有給出有力依據,比如在介紹嘉善的創(chuàng)新環(huán)境和發(fā)展空間時,,沒有點出嘉善“雙示范”的國家戰(zhàn)略地位,,沒有突出嘉善具有競爭力的人才招引政策,沒有提到祥符蕩科創(chuàng)綠谷,、中國歸谷嘉善科技園等人才展示平臺,,沒有彰顯出嘉善求賢若渴的招賢納士姿態(tài),使得推介詞“熱情”不足,、“洋溢”不夠,。
總體來看,三大模型對于文章結構的梳理值得借鑒參考,,但并沒有很好地完成這一項任務,。
回到我們最開始的問題,人工智能是否會取代咨詢師,?在給出最終的答案之前,,我們不妨先看看濱州市委書記、市人大常委會主任宋永祥在第三屆濱州人才節(jié)啟動儀式暨人才高峰薈上的主旨演講:《選擇濱州 愛上智城 共贏未來》,。文章用“江山代有才人出”“近水樓臺先得月”“此心安處是吾鄉(xiāng)”“不拘一格降人才”“天生我材必有用”五句詩向人才致敬,,結構嚴謹、行文流暢,、語言優(yōu)美,、邏輯清晰、內容詳實,,堪稱推介詞的范本,。
通過此次測評,我們能夠看到人工智能模型在語義理解和邏輯梳理上展現出的能力。例如,,這些模型能夠幾乎瞬間分析大量文本,,提取關鍵信息,并整理出清晰的框架,,能夠幫助咨詢師更好地梳理課題思路,,把握研究方向,提高工作效率,。然而,,三個大模型在綜合表現上仍無法達到高質量決策咨詢報告的要求,比如在語言組織上還略顯生硬,,無法在論證觀點時提供全面且有力的依據,,反映出當前的人工智能在生成高質量、連貫性強的文本方面仍有很大提升空間,。
此外,,要讓人工智能在決策咨詢中發(fā)揮更大作用,還需要克服一些挑戰(zhàn),。首先,,人工智能模型依賴大量數據,如果收集的數據存在偏差或不準確,,會直接影響其輸出結果,;其次,決策咨詢的論證過程需要透明,、可靠和令人信服的依據,,當前的人工智能模型,其本質上還難以脫離“黑箱”的本質,,還沒有人能夠了解其內部工作原理,,這就需要有人不斷對其生成的結果進行嚴格審查和校驗。
綜上,,當前的大語言模型具備在實際工作中作為輔助工具,能夠幫助咨詢師提升部分場景的工作效率,,但距離完全取代咨詢師還有很大的差距,。未來,隨著人工智能技術的不斷進步,,或許有一天大語言模型能在更復雜的任務中發(fā)揮更大的作用,,然而在此之前,咨詢師的創(chuàng)造力,、判斷力和表達力依然是決策咨詢中不可替代的關鍵因素,。
更為重要的是,咨詢師和大模型一樣,,都在持續(xù)不斷地學習,,同時——華略智庫的公眾號和視頻號就是例證,。
所以,在可預見的階段,,決策咨詢行業(yè)中,,主要靠人工,有時靠智能,。暫時,,我們還不會被取代。
免責聲明:本文來自網絡收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1113406.html
溫馨提示:投資有風險,,入市須謹慎。本資訊不作為投資理財建議,。