圖為付聰在路邊采集聲音數(shù)據(jù),。
張嘉幸/攝
掃碼觀看視頻
打開電腦,,將采集的風(fēng)聲、雨聲,、溪流聲等聲音數(shù)據(jù)輸入,“清洗”掉夾雜其間的噪音,,對助聽器數(shù)據(jù)模型進(jìn)行“訓(xùn)練”,,測試模型在真實場景的靈敏度……伴隨著手指敲擊鍵盤的“啪嗒啪嗒”聲,騰訊天籟實驗室人工智能訓(xùn)練師付聰一天的工作就此開始,。
近幾年,,隨著人工智能技術(shù)不斷發(fā)展,,這個被稱為人工智能訓(xùn)練師的職業(yè)逐漸壯大。作為“數(shù)字職業(yè)”之一,,人工智能訓(xùn)練師的出現(xiàn),,加速了人工智能由技術(shù)研發(fā)走向行業(yè)應(yīng)用的過程,將產(chǎn)生較高的經(jīng)濟(jì)價值和社會價值,。
為模型不斷“喂”數(shù)據(jù)
每次出門時,,付聰總會在耳朵上戴一個大“耳環(huán)”。
這個“耳環(huán)”其實是一個測試版的助聽器,?!岸h(huán)”里的聲音各式各樣,有呼呼的噪聲,,有尖銳刺耳的吵鬧聲……這些經(jīng)過助聽器放大后產(chǎn)生的噪聲,,是很多佩戴助聽器的聽障人士長期面臨的困擾。
付聰和他的團(tuán)隊正在嘗試?yán)盟惴ㄔO(shè)計,、通過人工智能技術(shù)“訓(xùn)練”數(shù)據(jù)模型,,讓助聽器更加“智慧”地降低噪聲,,讓聽障人群聽得清、聽得懂,、聽得舒服,。
付聰解釋說,助聽器數(shù)據(jù)模型很小,,因此需要針對不同場景進(jìn)行優(yōu)化,,很多場景充滿挑戰(zhàn),“比如一個聽障人士在餐廳吃飯,,周圍有很多人說話,,他想跟對面的人聊天,四周聲音特別嘈雜,,作為一個正常人都可能聽不清楚,,更何況一個有聽力障礙的人?我們希望利用模型,,把需要的聲音提取出來,,降低噪聲,幫助更多聽障人群”,。
理想很豐滿,,但是實際的模型算法研發(fā)過程卻像是一場反復(fù)進(jìn)行的“戰(zhàn)役”。
模型的研發(fā)過程大致分為以下幾步:數(shù)據(jù)采集,、數(shù)據(jù)“清洗”,、模型訓(xùn)練、場景測試,、調(diào)整算法,,經(jīng)過幾次迭代之后再測試、調(diào)整,,“如果測試結(jié)果不理想,,需要把這個過程再走一遍,直到得到最優(yōu)效果”,。付聰說,。
數(shù)據(jù)采集要有針對性。為了讓模型更“聰明”,,需要針對不同場景采集各種特殊數(shù)據(jù),。付聰和團(tuán)隊成員不僅需要到早晚高峰的地鐵、熱鬧喧天的餐廳,、人來人往的馬路等場景,,采集數(shù)百個小時的聲音數(shù)據(jù),還要戴上助聽器體驗這些聲音的差別,,“比如風(fēng)聲,,正常人聽到是呼呼聲,,但戴上助聽器以后,是很吵的噗噗聲,,像是去KTV唱歌,,聲音使勁砸到麥克風(fēng)上”。道路騎行,、海邊風(fēng)浪……為了采集各種風(fēng)噪數(shù)據(jù),,付聰錄制了多種場景的風(fēng)聲。
數(shù)據(jù)“清洗”是將不需要的數(shù)據(jù)“洗掉”,。付聰舉了一個例子——風(fēng)聲,真實場景下會夾雜汽車鳴笛,、人交談等聲音,。在整理時要把這些數(shù)據(jù)剔除出來,保留一個比較純粹的風(fēng)聲,,這樣模型才會“認(rèn)識”風(fēng),。
模型訓(xùn)練是將“清洗”好的數(shù)據(jù)“喂”給模型。除了采集的特殊數(shù)據(jù),,付聰和他的同事們還會加入諸如世界各國的語言和一些非語音聲音等數(shù)據(jù),,“基本涵蓋了人們生活中遇到的所有噪聲和語音”。
和人類不同,,人工智能模型在訓(xùn)練過程中,,不會疲憊、煩躁,、發(fā)脾氣,,它們的“智慧”取決于模型參數(shù)、訓(xùn)練策略,、數(shù)據(jù)量等,。“它們就像一個‘孩子’,,會越來越‘聰明’,,識別到越來越多的聲音,我特別有成就感,?!备堵斦f。
考驗?zāi)托?、?xì)致和忍受力
模型訓(xùn)練完成后,,并不意味立刻能應(yīng)用到聽障人群的助聽器上,還要經(jīng)歷較長時間的迭代,、調(diào)整過程,。
比如,,為了讓聽障人群適配到合適的助聽器,傳統(tǒng)方式是患者反復(fù)到線下的驗配店去試戴,,過程繁雜,。付聰解釋說,一般情況下,,根據(jù)發(fā)病原因不同可以將聽力下降分為三類:感音神經(jīng)性,、傳導(dǎo)性、混合性耳聾,;根據(jù)聽力下降的程度不同,,分為輕度、中度,、重度及極重度耳聾,。針對不同的類型,助聽器的適配方式有所不同,。
有沒有可能把適配過程搬到“線上”,,利用人工智能算法和深度學(xué)習(xí)能力,讓聽障人群在線上就能做準(zhǔn)確的聽力驗配,?帶著這個疑問,,付聰開始研發(fā)適配算法。他將這個過程比喻為做應(yīng)用題,,需要查詢國內(nèi)外文獻(xiàn),、檢索現(xiàn)有方案,根據(jù)具體的使用環(huán)境,,利用現(xiàn)有知識開展合理想象,、設(shè)計實驗、尋找答案,。
這個過程考驗人工智能訓(xùn)練師的耐心,、細(xì)致。在測試助聽器音質(zhì)時,,不同的佩戴方式,,對應(yīng)不同的測試結(jié)果。付聰和同事需要以“N×N”排列組合設(shè)計不同的佩戴方式,,并且不斷重復(fù)試驗,,來研究其對音質(zhì)產(chǎn)生的影響。
這個過程十分考驗人工智能訓(xùn)練師的忍受力,?!耙粋€人工智能訓(xùn)練師的基本素養(yǎng),就是強迫自己聽很多次刺耳的聲音?!备堵敱硎?,這是因為訓(xùn)練師需要定量衡量聽障患者能正常聽到的聲音極限點,而這些聲音的分貝數(shù)是正常人耳難以忍受的,,“很多時候恨不得把耳機(jī)摔掉,。經(jīng)過一天測試,整個腦袋都感覺疼”,。
經(jīng)過不斷迭代,、調(diào)整,內(nèi)置了算法的助聽器終于完成了,。最讓付聰難忘的是他們第一次到廣東韶關(guān)捐贈產(chǎn)品,,他們把助聽器挨個交到聽障老人手上,開機(jī),、戴設(shè)備,、調(diào)整增益……“雖然我對模型很有信心,但當(dāng)時還是感覺心提到了嗓子眼,,因為在此之前,,老人們是無法正常交流的,?!备堵斦f。
他小心地詢問一個老人:“您能聽到我在說什么嗎,?”
“可以了,。”老人緩慢而又堅定地從口中說出3個字,。
“那時候我覺得,,我們做的這個事情挺有意義的?!备堵斦f,。
用技術(shù)解決人類需求
人工智能訓(xùn)練師是一個需要忍受孤獨的職業(yè),因為他們大量的時間是在設(shè)計方案,、寫代碼,、采集數(shù)據(jù)、訓(xùn)練模型中度過的,。
“我戰(zhàn)勝孤獨的秘密是興趣,。”付聰?shù)膶I(yè)是通信,,其中很多課程和信號處理相關(guān),,他平時比較喜歡音樂,因此就將自己的興趣和專業(yè)、工作結(jié)合起來,,聚焦音頻領(lǐng)域,,大學(xué)畢業(yè)后參與了很多有關(guān)音頻信號處理的工作,經(jīng)歷了音頻算法從傳統(tǒng)算法到人工智能算法,,再到大規(guī)模深度學(xué)習(xí)的各個階段,。
在付聰看來,人工智能技術(shù)是一個很好的工具,,目的是將人類從很多腦力勞動中解放出來,,用規(guī)模化的方式去替代目前成本較高的個體勞動,。對整個社會而言,,這是一種生產(chǎn)力的進(jìn)步,有著巨大的社會價值和商業(yè)價值,。
成熟的人工智能技術(shù)是什么樣,?付聰認(rèn)為需要經(jīng)過3個階段:一是感知智能,核心在于模擬人的視覺,、聽覺和觸覺等感知能力,,比如人臉識別、語音識別等,;二是認(rèn)知智能,,具有人類思維理解、知識共享,、行動協(xié)同或博弈等特征,,“能夠真正理解人在說什么,根據(jù)一些提示,,提供相對完整的回答”,;三是行為智能,也就是像自動駕駛一樣,,真正可以在物理世界發(fā)揮作用,。
達(dá)到這樣的目標(biāo),需要對人工智能模型不斷進(jìn)行訓(xùn)練,。付聰表示,,首先需要針對問題準(zhǔn)備足夠多的數(shù)據(jù),“多到盡量涵蓋解決這個問題時所遇到的所有情形”,;其次需要設(shè)計很好的算法,,并根據(jù)用戶反饋不斷優(yōu)化。
“人工智能技術(shù)領(lǐng)域日新月異,,要求人工智能訓(xùn)練師有廣闊的視野,、深厚的人文情懷和社會責(zé)任感,,用業(yè)界最新想法、理念和正確的倫理觀來幫助人類解決生產(chǎn)生活中遇到的問題,?!备堵斦f。(彭訓(xùn)文 張嘉幸)
來源:人民日報海外版
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點僅代表作者本人,,不代表芒果財經(jīng)贊同其觀點或證實其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1063571.html
溫馨提示:投資有風(fēng)險,,入市須謹(jǐn)慎。本資訊不作為投資理財建議,。