文/陳儀香,,張民,張敏
本報告分為三個方面,,首先簡要介紹人工智能的發(fā)展史,;然后重點闡述人工智能的可信性,;最后介紹華東師范大學可信智能實驗室在人工智能可信性方面的研究工作進展。
一,、人工智能簡史
提到人工智能不能不提英國的數學家,、邏輯學家圖靈,1936年他提出了一種理想計算機的數學模型,,稱之為圖靈機,。1950年提出了著名的“圖靈實驗”:讓人和計算機分處兩個不同的房間里,并互相對話,,如果作為人的一方不能判斷對方是人還是計算機,,則那臺計算機就達到了人的智能。這是對智能的一個明確定義,。
1956年夏天美國數學家,、計算機科學家McCarthy 和其他學者聯(lián)合發(fā)起了在美國達德茅斯大學召開的世界上第一次人工智能學術大會,會上正式決定使用人工智能 (artificial intelligence, AI) 一詞來概括這個研究方向,。1956 年成為了人工智能作為一門獨立的研究領域正式誕生的元年,,而 McCarthy本人在美國也常常被人們看作是“人工智能之父”。McCarthy1958年發(fā)明Lisp編程語言(一種基于邏輯的函數式設計語言,,至今仍活躍在人工智能領域),,1971年因對AI的貢獻獲得圖靈獎。
人工智能有各種版本的定義,,比較正式的是全國科學技術名詞審定委員會2018年出版的《計算機科學技術名詞》(第三版)給出的定義:解釋和模擬人類智能,、智能行為及其規(guī)律的學科,,主要任務是建立智能信息處理理論,進而設計可展現(xiàn)近似人類智能行為的計算機系統(tǒng),。2000 年陸汝鈐院士在其專著《人工智能》(科學出版社出版)中提到,,人工智能研究不僅與對人的思維研究密切相關,而且與許多其他學科密切相關,。也就是人工智能是一個綜合學科的研究。
目前,,我國把人工智能提到了一個非常重要的位置,,把它作為推動數字經濟、智能社會一個重要的推動技術,、理論和科學的手段,。
2019年譚鐵牛院士在《求是》雜志上發(fā)表的一篇文章《人工智能的歷 史、現(xiàn)狀和未來》(https://www.cas.cn/zjs/201902/t20190218_4679625.shtml),,他將人工智能的三次高潮劃分成六個階段,。從圖 1 中可見,第一次人工智能高潮是人工智能誕生后的十年,,其代表性成果是跳棋程序和機器定理證明,。以吳文俊先生為代表的我國科學家在機器定理證明領域取得了很好的研究成果。但機器翻譯鬧出的笑話,,以及機器無法證明兩個連續(xù)函數之和還是連續(xù)函數,,使人工智能進入了10年的反思發(fā)展期。專家系統(tǒng)成功地應用于醫(yī)療,、化學,、地質等領域推動了人工智能第二次高潮——應用發(fā)展期的出現(xiàn)。專家系統(tǒng)的核心技術是知識庫和推理,。常識性知識的缺乏,,以及推理方法的單一使人工智能進入了第二個低迷期。經過近10年的探索,,分布計算的應用推動了人工智能進入了穩(wěn)步發(fā)展期,,典型事件是深藍超級計算機——深藍世界象棋戰(zhàn)勝卡斯帕羅夫,成為當時全球轟動的事件,。隨后幾年人工智能進入了蓬勃發(fā)展期,,也迎來了第三次高潮期。典型案例是以深度神經網絡為代表的機器學習推動了人工智能的廣泛應用,,其典型例子就是圖像分類和無人駕駛,。圍棋機器人AlphaGo戰(zhàn)勝了韓國職業(yè)圍棋手李世石,更奠定了機器學習在人工智能的地位,。
人工智能自1956誕生到2020年,,歷時65年,,經歷了三次高潮和兩次低潮,表現(xiàn)出像其他學科的發(fā)展一樣,,高低起伏螺旋式上升,。
從2020年開始,我們認為人工智能進入了沉思發(fā)展期,。我們想一想,,現(xiàn)在人工智系統(tǒng)是否能呈現(xiàn)出圖靈定義的智能?現(xiàn)在的圖像分類和識別是否具有抗干擾性,?我們敢不敢使用安裝在汽車里的無人駕駛系統(tǒng),?我們能否相信像人一樣智慧的人工智能系統(tǒng)?這就是人工智能的可信性問題,。
如果按照人工智能10年為一個周期,,2030年應該能解決這些問題。所以我們在譚鐵牛院士提出的人工智能發(fā)展六個階段后面,,增加了沉思發(fā)展期,。人工智能有三次高潮已被公認,目前在處于第三次高潮下落期,,我們應該沉思一下,,人造的具有人類智慧的計算機系統(tǒng)能否可信?
換句話說,,人工智能是否可信,?我們從哪幾個方面來看這個問題?比如任務系統(tǒng)為什么要這么工作,,它的原因是什么,?它的魯棒性是什么?能不能抗干擾,、抗對抗,?是否具有公平性?是否符合倫理,?
二,、人工智能可信性
基于深度神經網絡的圖像分類是人工智能比較成功的典型案例。圖像分類是在一個有固定的分類標簽集合上,,對于輸入的圖像,,從分類標簽集合中找出一個分類標簽,最后把這個分類標簽分配給該輸入圖像,,就確立了這個輸入圖像類別,。這個過程相當于我們在教幼兒園孩子從圖學習識別小貓、小狗、獅子,、兔子,、雞和魚等動物。圖 2 示出的是一臺經典計算機,,而且是一個白板,,說明它是一個無知的計算機系統(tǒng),我們要通過不斷訓練與學習,,通過圖片的輸入告訴它這是什么,;通過多遍學習與訓練,認識這張圖片后就會回答,。然而如果給一張不打標簽圖片,,它能識別出來嗎?經過學習與訓練,,成人正確認識這些圖片沒問題,但是如果給兩三歲小孩識別可能就有問題了,。因此說,,機器學習的水平也就是人類兩三歲小孩的水平,這是不行的,。
然而真是這樣,?大家都知道盲人摸象。正常人的眼睛識別大象是從整體來看,,但盲人摸象是局部看象:一人一象,。這正是“眾盲摸象,各說異端,,忽遇明眼人又作么生,?”現(xiàn)在的神經網絡學習如果像盲人摸象那樣,問題就嚴重了,。
2016年1月20日,,在京港澳高速邯鄲段,一輛特斯拉Model S與前方道路清掃車發(fā)生追尾事故,,造成特斯拉車輛駕駛員死亡,。交警認定,特斯拉駕駛員負主要責任,。但經過一年多的調查審理有了新的進展,,特斯拉方面確認在車禍發(fā)生時,車輛處于“自動駕駛”狀態(tài)(https://www.sohu.com/a/228965384_451144),。造成追尾事故可能是自動駕駛的汽車沒有能識別出前方的道路清掃車,,也可能是識別出來了但制動剎車不及時造成的追尾。
2017年美國學者Evan Ackernab在IEEE Spetrum上發(fā)表論文指出,深度神經網絡在圖像識別方面取得了巨大成功,,但容易受到攻擊,。他舉了一個例子。在交通標志牌STOP上進行了簡單的涂鴉,,交通標志識別系統(tǒng)識別后輸出的是限速45英里,。人類絕不會出現(xiàn)這樣的錯誤。造成這種結果的原因是在其樣本庫里沒有涂過鴉的交通標志STOP,,所以識別系統(tǒng)不認識它,,很可能隨便給出一個標簽。如果把這個道路交通標志識別系統(tǒng)放到無人駕駛系統(tǒng)里,,誰敢使用,?
2018年3月18日晚上10點左右,美國亞利桑那州一名女子被優(yōu)步Uber自動駕駛汽車撞傷,,行人在送往醫(yī)院后不治身亡,。事故發(fā)生地警察表示,初步調查顯示,,在這起交通事故中,,優(yōu)步可能不存在過錯。但一年后,,2019年11月7日,,美官方公布了全球首例無人車致死事故的更多細節(jié)。車禍前 5.6秒時車輛就已經檢測到了行人,,但是系統(tǒng)把她錯誤識別為汽車,。車禍前5.2秒,汽車的自動駕駛系統(tǒng)又把她歸類為“其他”,,認為她是不動的物體,,并不妨礙車輛行駛。系統(tǒng)對物體的分類發(fā)生了混亂,,在“汽車”和“其他”之間搖擺不定,,浪費了大量寶貴的時間。(https://baike.baidu.com/item/3·18)
從上面的示例可以看到,,人工智能能做很多事情,。在正常情況能以很高的概率給出正確的結果,但在異常情況下不知如何處理了,?這點沒有體現(xiàn)人類的智慧,。
三、人工智能可信性研究
2019年,,何積豐院士在一個論壇上作了一個《安全可信人工智能》報告(同時報告發(fā)表在《信息安全與通信保密》雜志上)指出,,從可信人工智能的特征分析,可信人工智能應具備與人類智能類似的特質,如魯棒性,、自我反省性,、自適應性和公平性。同時,,何院士在報告里還提到歐盟制定的可信人工智能五個基本準則:福祉原則——向善,、不作惡原則——無害、自治原則——人類能動性,、公正原則——公平性,、可解釋性原則——透明運行。我們總結后給出人工智能可信性五角形模型,,如圖3所示,。
下面重點闡述魯棒性、公平性和解釋性問題,。
(一)魯棒性
神經網絡的魯棒性就是指神經網絡是否能在允許的擾動范圍內仍然對輸入做出相同的判斷,。但是目前深度神經網絡做不到這一點,實驗表明一個肉眼無法察覺的擾動可能會使神經網絡做出截然不同的判斷,。近年來,,越來越的學者開始研究如何利用形式化方法驗證神經網絡是否滿足魯棒性。
神經網絡的驗證可借助程序驗證中的 Hoare Logic表示為一個三元組(P,f,Q), 其中P為前置條件,、f為神經網絡、Q為后置條件,。對于魯棒性,,可將P定義為一個二元謂詞
, 表示兩個輸入x,x’在lp范數下的距離小于或等于
;Q同樣定義為一個二元謂詞
, 表示神經網絡f在兩個輸入x,、x’上的分類結果相同,。證明神經網絡f滿足魯棒性,等價于證明如下公式成立
上式可理解為對于任意的一個輸入x,,假設x’是在x上的任意一個合法擾動,,那么x、x’的分類結果相同,。由于此式的證明非常困難,,現(xiàn)在大部分研究多假設x為一個固定值,驗證f針對x是否是魯棒的,。
本文作者在ISSRE’21中設計了一個基于證偽的神經網絡魯棒性驗證算法(見圖4),。該算法是尋找輸入對 (x,x’) 滿足
,。遍歷所有可能的標簽是否滿足不等式,。改進后的方法是,先對所有非目標遍歷所有可能的標簽是否滿足不等式進行排序。排序的準則是將最有可能被誤判的標簽放在前面,,然后按照順序查看上面的不等式是否成立,。
假設
為目標標簽,則
依次為最有可能及次有可能被誤分的標簽,。根據輸入的數據及擾動區(qū)間,,計算每個非目標標簽對應的概率區(qū)間。再計算每個區(qū)間的上界與目標標簽概率區(qū)間的下界的重合度,,重合度越大,,表示被誤判的可能性就越大。
把提出的方法應用于最新的四個驗證工具MipVerify,、Neurify,、DeepZ和DeepPoly,結果表明在驗證效率方面有200余倍的提升(見圖5),。所提方法同樣適用于卷積神經網絡驗證,。
(二)公平性
2019年美國社會心理學家Amber Cazzell在https://hackernoon.com/ 上發(fā)表文章指出,神經網絡在樣本訓練與學習中缺乏公平性,。用統(tǒng)計數據預測亞馬遜招聘應用中,,出現(xiàn)了AI招聘系統(tǒng)對男性求職者更青睞的現(xiàn)象,這是對性別的歧視,;使用個人行為數據預測累犯概率時,,黑人被預測為累犯的概率比白人高,這是對種族的歧視,。這些帶有偏見的現(xiàn)實應用會加劇社會不平等,,造成更嚴重的社會危害。
神經網絡的公平性是指神經網絡在計算時保證不論屬于哪個群體,,所有人都能遵守統(tǒng)一計算標準,,給出公平的計算結果。神經網絡是否滿足公平性,?如何驗證,?
定義 ( 個體歧視樣例 )假設神經網絡模型N,其數據集是X,、屬性集合為A,,P表示是A的一個子集,定義為敏感屬性集合,,而A\P則為非敏感屬性集合,。如果存在一個樣本
滿足以下條件,則樣本
是神經網絡模型N的一個個體歧視樣例:
輸入對 (x,x’) 則稱為一組個體歧視樣例對,。
定義 ( 個體公平性 )對于任意樣本
和
,,若滿足
和
,,則有
,這樣神經網絡模型N樣本數據集X上滿足個體公平性,。
個體公平性測試問題定義:對于一個給定的訓練集X和一個神經網絡模型N,,嘗試通過擾動X中的樣本,盡可能快地生成盡可能多的個體歧視樣例,,并利用生成的個體歧視樣例有效降低原模型的歧視程度,。
本文作者在ISSTA21提出一種神經網絡模型的公平性測試框架EIDIG (efficient individual discrimination instance generator) ,如圖6所示,,主要包括生成個體歧視樣例和消除歧視兩個部分,。
從圖7所示的訓練結果看到,EIDIG與最好方法ADF 比,,總體上,,從搜索效率角度來看,當搜索的最大嘗試次數固定時,,EIDIG生成個體歧視樣例的速度比 ADF多檢驗了24.75%的搜索空間,,比ADF多生成了 25.78%的個體歧視樣例。而EIDIG將神經網絡模型的個體公平性提升了81.15%,,明顯優(yōu)于ADF的72.97%,。
(三)可解釋性
可解釋性就是智能系統(tǒng)決策過程可被人類理解。智能系統(tǒng)如何決策,?為何這么決策,?我們認為可解釋性可以使用因果關系模型來建立。因果關系模型:A(原因)→ B(結果),。比如,,弗朗西斯·培根說過的知識就是力量:“知識→力量”;現(xiàn)代語中的知識→改變命運等,。
表情識別是機器學習一個重要領域,一般的方法是在樣本數據庫中對樣本進行標注,,通過機器學習算法訓練分類模型,,通過測試數據確立分類模型。微表情是當人們試圖隱藏內心某種真實情感時,,所泄漏的短暫面部表情變化,。微表情動作轉瞬即逝,多數人在日常生活中往往會忽視它的存在,,但它作為一種高效的行為性線索,,對了解人類內心世界真實感情的變化具有重要意義。微表情分為微笑,、驚訝,、憤怒,、傷心、緊張五類,,如何識別它們,?
我們微表情識別的解決方法是,首先建立數學模型,,給出閾值,;通過樣本數據獲得閾值的合理值;最后依據這個合理值確立分類模型,,建立微表情分類的因果關系模型,,提供微表情識別的解釋過程。
人臉表情識別通常建立在人臉的68個特征點上(見圖8),。微表情識別可從中選取人臉局部特征點,,進行建模識別。我們選取眉毛特征點18~27,,眼睛特征點37~46,,嘴特征點49~68。根據這些特征點建立眉毛,、眼睛,、嘴唇的微表情變化公式。
眉毛微表情變化:記特征點22(左眉頭)為A點,,特征點23(右眉頭)為B點,,N是特征點31(鼻梁穩(wěn)定點)為N點,計算AN和BN的歐式距離:
閾值:測驗者與自己1分鐘的平均距離值進行比較,,可以把眉毛的變化分成皺眉(小于平均值),、揚眉(大于平均值)和正常(等于平均值)三類。
眼睛微表情變化:記左眼特征點37為P1,、38為P2,、39為P3、40為P4,、41為P5,、42為P6,。計算上下眼皮距離之和與眼睛長度之比
,。通過機器學習,學到了眼睛微表情變化閾值,,依據這個閾值將眼睛微表情變化分為睜大眼(EAR≥0.28),、正常(0.2 ≤ EAR
嘴唇微表情識別:計算嘴唇特征點63(上嘴唇)和 67(下嘴唇)的歐式距離D,,求出D的最大值DMAX,然后計算D與DMAX 的比RD,,基于機器學習學得RD閾值,,再依據這個閾值將嘴的微表情分成張大嘴(RD≥0.4),、咪咪嘴(0
嘴角微表情識別:計算左嘴唇L(特征點49)、右嘴唇R(特征點 55)與鼻梁穩(wěn)定點N(特征點31)組成三角形的角度∠NLR 和∠NRL 的值,。每個人鼻梁與嘴角的基礎夾角通常不同,,首先針對于不同的受測者,其需事先提供約1分鐘嘴部處于正常狀態(tài)的視頻,,統(tǒng)計視頻中鼻梁與嘴角夾 角值,,分別計算和記錄∠NLR 和∠NRL 的平均值。當大于平均值時分類為嘴角上揚,,當小于平均值時分類為嘴角下壓,。
一個微表情的出現(xiàn)是由一個或多個面部局部區(qū)域的變化組成的。將眼睛,、嘴巴,、眉毛相應的動作狀態(tài)適當組合,可以建立微表情識別因果關系模型(見圖9),。例如,,微笑:瞇瞇眼 + 咪咪嘴 + 嘴角上揚,驚訝:睜大眼 + 揚眉,,傷心:咪咪眼 + 嘴角下壓,,憤怒:瞇瞇眼 + 閉嘴 + 揚眉。
我們實驗室開發(fā)一個微表情識別工具,,可以實時地識別檢測者的微表情變化(見圖10),。
四、結束語
人工智能自誕生時起,,歷時近70年,,經歷了三次高潮,現(xiàn)在進入沉思發(fā)展期,,其特征是關注人工智能的可信性,。本報告總結歸納出人工智能可信性的六個屬性,這些是人工智能可信性研究的基礎,,隨著研究的深入,,更多人工智能可信性屬性會被提出。此外介紹了華東師范大學可信智能實驗室在人工智能的可信性研究工作取得的進展,。但本報告的初衷是期待著年輕的科學工作者投入到人工智能可信性的研究,使更加創(chuàng)新的人工智能可信性研究成果涌出,,更加可信的人工智能產品惠及社會,。
(參考文獻略)
選自《中國人工智能學會通訊》
2022年第12卷第6期
演講實錄
免責聲明:本文來自網絡收錄或投稿,觀點僅代表作者本人,,不代表芒果財經贊同其觀點或證實其描述,,版權歸原作者所有,。轉載請注明出處:http://lequren.com/1140467.html
溫馨提示:投資有風險,入市須謹慎,。本資訊不作為投資理財建議,。