文/陳儀香,,張民,張敏
本報(bào)告分為三個方面,,首先簡要介紹人工智能的發(fā)展史,;然后重點(diǎn)闡述人工智能的可信性;最后介紹華東師范大學(xué)可信智能實(shí)驗(yàn)室在人工智能可信性方面的研究工作進(jìn)展,。
一,、人工智能簡史
提到人工智能不能不提英國的數(shù)學(xué)家、邏輯學(xué)家圖靈,,1936年他提出了一種理想計(jì)算機(jī)的數(shù)學(xué)模型,,稱之為圖靈機(jī)。1950年提出了著名的“圖靈實(shí)驗(yàn)”:讓人和計(jì)算機(jī)分處兩個不同的房間里,,并互相對話,,如果作為人的一方不能判斷對方是人還是計(jì)算機(jī),則那臺計(jì)算機(jī)就達(dá)到了人的智能,。這是對智能的一個明確定義,。
1956年夏天美國數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家McCarthy 和其他學(xué)者聯(lián)合發(fā)起了在美國達(dá)德茅斯大學(xué)召開的世界上第一次人工智能學(xué)術(shù)大會,,會上正式?jīng)Q定使用人工智能 (artificial intelligence, AI) 一詞來概括這個研究方向,。1956 年成為了人工智能作為一門獨(dú)立的研究領(lǐng)域正式誕生的元年,而 McCarthy本人在美國也常常被人們看作是“人工智能之父”,。McCarthy1958年發(fā)明Lisp編程語言(一種基于邏輯的函數(shù)式設(shè)計(jì)語言,,至今仍活躍在人工智能領(lǐng)域),,1971年因?qū)I的貢獻(xiàn)獲得圖靈獎。
人工智能有各種版本的定義,,比較正式的是全國科學(xué)技術(shù)名詞審定委員會2018年出版的《計(jì)算機(jī)科學(xué)技術(shù)名詞》(第三版)給出的定義:解釋和模擬人類智能,、智能行為及其規(guī)律的學(xué)科,主要任務(wù)是建立智能信息處理理論,,進(jìn)而設(shè)計(jì)可展現(xiàn)近似人類智能行為的計(jì)算機(jī)系統(tǒng),。2000 年陸汝鈐院士在其專著《人工智能》(科學(xué)出版社出版)中提到,人工智能研究不僅與對人的思維研究密切相關(guān),,而且與許多其他學(xué)科密切相關(guān),。也就是人工智能是一個綜合學(xué)科的研究。
目前,,我國把人工智能提到了一個非常重要的位置,,把它作為推動數(shù)字經(jīng)濟(jì)、智能社會一個重要的推動技術(shù),、理論和科學(xué)的手段,。
2019年譚鐵牛院士在《求是》雜志上發(fā)表的一篇文章《人工智能的歷 史、現(xiàn)狀和未來》(https://www.cas.cn/zjs/201902/t20190218_4679625.shtml),,他將人工智能的三次高潮劃分成六個階段,。從圖 1 中可見,第一次人工智能高潮是人工智能誕生后的十年,,其代表性成果是跳棋程序和機(jī)器定理證明,。以吳文俊先生為代表的我國科學(xué)家在機(jī)器定理證明領(lǐng)域取得了很好的研究成果。但機(jī)器翻譯鬧出的笑話,,以及機(jī)器無法證明兩個連續(xù)函數(shù)之和還是連續(xù)函數(shù),,使人工智能進(jìn)入了10年的反思發(fā)展期。專家系統(tǒng)成功地應(yīng)用于醫(yī)療,、化學(xué),、地質(zhì)等領(lǐng)域推動了人工智能第二次高潮——應(yīng)用發(fā)展期的出現(xiàn)。專家系統(tǒng)的核心技術(shù)是知識庫和推理,。常識性知識的缺乏,,以及推理方法的單一使人工智能進(jìn)入了第二個低迷期。經(jīng)過近10年的探索,,分布計(jì)算的應(yīng)用推動了人工智能進(jìn)入了穩(wěn)步發(fā)展期,,典型事件是深藍(lán)超級計(jì)算機(jī)——深藍(lán)世界象棋戰(zhàn)勝卡斯帕羅夫,成為當(dāng)時全球轟動的事件,。隨后幾年人工智能進(jìn)入了蓬勃發(fā)展期,,也迎來了第三次高潮期。典型案例是以深度神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)推動了人工智能的廣泛應(yīng)用,,其典型例子就是圖像分類和無人駕駛,。圍棋機(jī)器人AlphaGo戰(zhàn)勝了韓國職業(yè)圍棋手李世石,,更奠定了機(jī)器學(xué)習(xí)在人工智能的地位。
人工智能自1956誕生到2020年,,歷時65年,,經(jīng)歷了三次高潮和兩次低潮,表現(xiàn)出像其他學(xué)科的發(fā)展一樣,,高低起伏螺旋式上升,。
從2020年開始,我們認(rèn)為人工智能進(jìn)入了沉思發(fā)展期,。我們想一想,現(xiàn)在人工智系統(tǒng)是否能呈現(xiàn)出圖靈定義的智能,?現(xiàn)在的圖像分類和識別是否具有抗干擾性,?我們敢不敢使用安裝在汽車?yán)锏臒o人駕駛系統(tǒng)?我們能否相信像人一樣智慧的人工智能系統(tǒng),?這就是人工智能的可信性問題,。
如果按照人工智能10年為一個周期,2030年應(yīng)該能解決這些問題,。所以我們在譚鐵牛院士提出的人工智能發(fā)展六個階段后面,,增加了沉思發(fā)展期。人工智能有三次高潮已被公認(rèn),,目前在處于第三次高潮下落期,,我們應(yīng)該沉思一下,人造的具有人類智慧的計(jì)算機(jī)系統(tǒng)能否可信,?
換句話說,,人工智能是否可信?我們從哪幾個方面來看這個問題,?比如任務(wù)系統(tǒng)為什么要這么工作,,它的原因是什么?它的魯棒性是什么,?能不能抗干擾,、抗對抗?是否具有公平性,?是否符合倫理,?
二、人工智能可信性
基于深度神經(jīng)網(wǎng)絡(luò)的圖像分類是人工智能比較成功的典型案例,。圖像分類是在一個有固定的分類標(biāo)簽集合上,,對于輸入的圖像,從分類標(biāo)簽集合中找出一個分類標(biāo)簽,,最后把這個分類標(biāo)簽分配給該輸入圖像,,就確立了這個輸入圖像類別,。這個過程相當(dāng)于我們在教幼兒園孩子從圖學(xué)習(xí)識別小貓、小狗,、獅子,、兔子、雞和魚等動物,。圖 2 示出的是一臺經(jīng)典計(jì)算機(jī),,而且是一個白板,說明它是一個無知的計(jì)算機(jī)系統(tǒng),,我們要通過不斷訓(xùn)練與學(xué)習(xí),,通過圖片的輸入告訴它這是什么;通過多遍學(xué)習(xí)與訓(xùn)練,,認(rèn)識這張圖片后就會回答,。然而如果給一張不打標(biāo)簽圖片,它能識別出來嗎,?經(jīng)過學(xué)習(xí)與訓(xùn)練,,成人正確認(rèn)識這些圖片沒問題,但是如果給兩三歲小孩識別可能就有問題了,。因此說,,機(jī)器學(xué)習(xí)的水平也就是人類兩三歲小孩的水平,這是不行的,。
然而真是這樣,?大家都知道盲人摸象。正常人的眼睛識別大象是從整體來看,,但盲人摸象是局部看象:一人一象,。這正是“眾盲摸象,各說異端,,忽遇明眼人又作么生,?”現(xiàn)在的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)如果像盲人摸象那樣,問題就嚴(yán)重了,。
2016年1月20日,,在京港澳高速邯鄲段,一輛特斯拉Model S與前方道路清掃車發(fā)生追尾事故,,造成特斯拉車輛駕駛員死亡,。交警認(rèn)定,特斯拉駕駛員負(fù)主要責(zé)任,。但經(jīng)過一年多的調(diào)查審理有了新的進(jìn)展,,特斯拉方面確認(rèn)在車禍發(fā)生時,車輛處于“自動駕駛”狀態(tài)(https://www.sohu.com/a/228965384_451144),。造成追尾事故可能是自動駕駛的汽車沒有能識別出前方的道路清掃車,,也可能是識別出來了但制動剎車不及時造成的追尾,。
2017年美國學(xué)者Evan Ackernab在IEEE Spetrum上發(fā)表論文指出,深度神經(jīng)網(wǎng)絡(luò)在圖像識別方面取得了巨大成功,,但容易受到攻擊,。他舉了一個例子。在交通標(biāo)志牌STOP上進(jìn)行了簡單的涂鴉,,交通標(biāo)志識別系統(tǒng)識別后輸出的是限速45英里,。人類絕不會出現(xiàn)這樣的錯誤。造成這種結(jié)果的原因是在其樣本庫里沒有涂過鴉的交通標(biāo)志STOP,,所以識別系統(tǒng)不認(rèn)識它,,很可能隨便給出一個標(biāo)簽。如果把這個道路交通標(biāo)志識別系統(tǒng)放到無人駕駛系統(tǒng)里,,誰敢使用,?
2018年3月18日晚上10點(diǎn)左右,美國亞利桑那州一名女子被優(yōu)步Uber自動駕駛汽車撞傷,,行人在送往醫(yī)院后不治身亡。事故發(fā)生地警察表示,,初步調(diào)查顯示,,在這起交通事故中,優(yōu)步可能不存在過錯,。但一年后,,2019年11月7日,美官方公布了全球首例無人車致死事故的更多細(xì)節(jié),。車禍前 5.6秒時車輛就已經(jīng)檢測到了行人,,但是系統(tǒng)把她錯誤識別為汽車。車禍前5.2秒,,汽車的自動駕駛系統(tǒng)又把她歸類為“其他”,,認(rèn)為她是不動的物體,并不妨礙車輛行駛,。系統(tǒng)對物體的分類發(fā)生了混亂,,在“汽車”和“其他”之間搖擺不定,浪費(fèi)了大量寶貴的時間,。(https://baike.baidu.com/item/3·18)
從上面的示例可以看到,,人工智能能做很多事情。在正常情況能以很高的概率給出正確的結(jié)果,,但在異常情況下不知如何處理了,?這點(diǎn)沒有體現(xiàn)人類的智慧。
三,、人工智能可信性研究
2019年,,何積豐院士在一個論壇上作了一個《安全可信人工智能》報(bào)告(同時報(bào)告發(fā)表在《信息安全與通信保密》雜志上)指出,,從可信人工智能的特征分析,可信人工智能應(yīng)具備與人類智能類似的特質(zhì),,如魯棒性,、自我反省性、自適應(yīng)性和公平性,。同時,,何院士在報(bào)告里還提到歐盟制定的可信人工智能五個基本準(zhǔn)則:福祉原則——向善、不作惡原則——無害,、自治原則——人類能動性,、公正原則——公平性、可解釋性原則——透明運(yùn)行,。我們總結(jié)后給出人工智能可信性五角形模型,,如圖3所示。
下面重點(diǎn)闡述魯棒性,、公平性和解釋性問題,。
(一)魯棒性
神經(jīng)網(wǎng)絡(luò)的魯棒性就是指神經(jīng)網(wǎng)絡(luò)是否能在允許的擾動范圍內(nèi)仍然對輸入做出相同的判斷。但是目前深度神經(jīng)網(wǎng)絡(luò)做不到這一點(diǎn),,實(shí)驗(yàn)表明一個肉眼無法察覺的擾動可能會使神經(jīng)網(wǎng)絡(luò)做出截然不同的判斷,。近年來,越來越的學(xué)者開始研究如何利用形式化方法驗(yàn)證神經(jīng)網(wǎng)絡(luò)是否滿足魯棒性,。
神經(jīng)網(wǎng)絡(luò)的驗(yàn)證可借助程序驗(yàn)證中的 Hoare Logic表示為一個三元組(P,f,Q), 其中P為前置條件,、f為神經(jīng)網(wǎng)絡(luò)、Q為后置條件,。對于魯棒性,,可將P定義為一個二元謂詞
, 表示兩個輸入x,x’在lp范數(shù)下的距離小于或等于
;Q同樣定義為一個二元謂詞
, 表示神經(jīng)網(wǎng)絡(luò)f在兩個輸入x,、x’上的分類結(jié)果相同,。證明神經(jīng)網(wǎng)絡(luò)f滿足魯棒性,等價于證明如下公式成立
上式可理解為對于任意的一個輸入x,,假設(shè)x’是在x上的任意一個合法擾動,,那么x、x’的分類結(jié)果相同,。由于此式的證明非常困難,,現(xiàn)在大部分研究多假設(shè)x為一個固定值,驗(yàn)證f針對x是否是魯棒的,。
本文作者在ISSRE’21中設(shè)計(jì)了一個基于證偽的神經(jīng)網(wǎng)絡(luò)魯棒性驗(yàn)證算法(見圖4),。該算法是尋找輸入對 (x,x’) 滿足
。遍歷所有可能的標(biāo)簽是否滿足不等式,。改進(jìn)后的方法是,,先對所有非目標(biāo)遍歷所有可能的標(biāo)簽是否滿足不等式進(jìn)行排序。排序的準(zhǔn)則是將最有可能被誤判的標(biāo)簽放在前面,,然后按照順序查看上面的不等式是否成立,。
假設(shè)
為目標(biāo)標(biāo)簽,則
依次為最有可能及次有可能被誤分的標(biāo)簽,。根據(jù)輸入的數(shù)據(jù)及擾動區(qū)間,,計(jì)算每個非目標(biāo)標(biāo)簽對應(yīng)的概率區(qū)間。再計(jì)算每個區(qū)間的上界與目標(biāo)標(biāo)簽概率區(qū)間的下界的重合度,,重合度越大,,表示被誤判的可能性就越大。
把提出的方法應(yīng)用于最新的四個驗(yàn)證工具M(jìn)ipVerify,、Neurify,、DeepZ和DeepPoly,結(jié)果表明在驗(yàn)證效率方面有200余倍的提升(見圖5),。所提方法同樣適用于卷積神經(jīng)網(wǎng)絡(luò)驗(yàn)證,。
(二)公平性
2019年美國社會心理學(xué)家Amber Cazzell在https://hackernoon.com/ 上發(fā)表文章指出,神經(jīng)網(wǎng)絡(luò)在樣本訓(xùn)練與學(xué)習(xí)中缺乏公平性,。用統(tǒng)計(jì)數(shù)據(jù)預(yù)測亞馬遜招聘應(yīng)用中,,出現(xiàn)了AI招聘系統(tǒng)對男性求職者更青睞的現(xiàn)象,這是對性別的歧視,;使用個人行為數(shù)據(jù)預(yù)測累犯概率時,黑人被預(yù)測為累犯的概率比白人高,,這是對種族的歧視,。這些帶有偏見的現(xiàn)實(shí)應(yīng)用會加劇社會不平等,造成更嚴(yán)重的社會危害,。
神經(jīng)網(wǎng)絡(luò)的公平性是指神經(jīng)網(wǎng)絡(luò)在計(jì)算時保證不論屬于哪個群體,,所有人都能遵守統(tǒng)一計(jì)算標(biāo)準(zhǔn),給出公平的計(jì)算結(jié)果,。神經(jīng)網(wǎng)絡(luò)是否滿足公平性,?如何驗(yàn)證?
定義 ( 個體歧視樣例 )假設(shè)神經(jīng)網(wǎng)絡(luò)模型N,,其數(shù)據(jù)集是X,、屬性集合為A,P表示是A的一個子集,,定義為敏感屬性集合,,而A\P則為非敏感屬性集合。如果存在一個樣本
滿足以下條件,,則樣本
是神經(jīng)網(wǎng)絡(luò)模型N的一個個體歧視樣例:
輸入對 (x,x’) 則稱為一組個體歧視樣例對,。
定義 ( 個體公平性 )對于任意樣本
和
,,若滿足
和
,則有
,,這樣神經(jīng)網(wǎng)絡(luò)模型N樣本數(shù)據(jù)集X上滿足個體公平性,。
個體公平性測試問題定義:對于一個給定的訓(xùn)練集X和一個神經(jīng)網(wǎng)絡(luò)模型N,嘗試通過擾動X中的樣本,,盡可能快地生成盡可能多的個體歧視樣例,,并利用生成的個體歧視樣例有效降低原模型的歧視程度。
本文作者在ISSTA21提出一種神經(jīng)網(wǎng)絡(luò)模型的公平性測試框架EIDIG (efficient individual discrimination instance generator) ,,如圖6所示,,主要包括生成個體歧視樣例和消除歧視兩個部分。
從圖7所示的訓(xùn)練結(jié)果看到,,EIDIG與最好方法ADF 比,,總體上,從搜索效率角度來看,,當(dāng)搜索的最大嘗試次數(shù)固定時,,EIDIG生成個體歧視樣例的速度比 ADF多檢驗(yàn)了24.75%的搜索空間,比ADF多生成了 25.78%的個體歧視樣例,。而EIDIG將神經(jīng)網(wǎng)絡(luò)模型的個體公平性提升了81.15%,,明顯優(yōu)于ADF的72.97%。
(三)可解釋性
可解釋性就是智能系統(tǒng)決策過程可被人類理解,。智能系統(tǒng)如何決策,?為何這么決策?我們認(rèn)為可解釋性可以使用因果關(guān)系模型來建立,。因果關(guān)系模型:A(原因)→ B(結(jié)果),。比如,弗朗西斯·培根說過的知識就是力量:“知識→力量”,;現(xiàn)代語中的知識→改變命運(yùn)等,。
表情識別是機(jī)器學(xué)習(xí)一個重要領(lǐng)域,一般的方法是在樣本數(shù)據(jù)庫中對樣本進(jìn)行標(biāo)注,,通過機(jī)器學(xué)習(xí)算法訓(xùn)練分類模型,,通過測試數(shù)據(jù)確立分類模型。微表情是當(dāng)人們試圖隱藏內(nèi)心某種真實(shí)情感時,,所泄漏的短暫面部表情變化,。微表情動作轉(zhuǎn)瞬即逝,多數(shù)人在日常生活中往往會忽視它的存在,,但它作為一種高效的行為性線索,,對了解人類內(nèi)心世界真實(shí)感情的變化具有重要意義。微表情分為微笑、驚訝,、憤怒,、傷心、緊張五類,,如何識別它們,?
我們微表情識別的解決方法是,首先建立數(shù)學(xué)模型,,給出閾值,;通過樣本數(shù)據(jù)獲得閾值的合理值;最后依據(jù)這個合理值確立分類模型,,建立微表情分類的因果關(guān)系模型,,提供微表情識別的解釋過程。
人臉表情識別通常建立在人臉的68個特征點(diǎn)上(見圖8),。微表情識別可從中選取人臉局部特征點(diǎn),,進(jìn)行建模識別。我們選取眉毛特征點(diǎn)18~27,,眼睛特征點(diǎn)37~46,,嘴特征點(diǎn)49~68。根據(jù)這些特征點(diǎn)建立眉毛,、眼睛,、嘴唇的微表情變化公式。
眉毛微表情變化:記特征點(diǎn)22(左眉頭)為A點(diǎn),,特征點(diǎn)23(右眉頭)為B點(diǎn),,N是特征點(diǎn)31(鼻梁穩(wěn)定點(diǎn))為N點(diǎn),計(jì)算AN和BN的歐式距離:
閾值:測驗(yàn)者與自己1分鐘的平均距離值進(jìn)行比較,,可以把眉毛的變化分成皺眉(小于平均值),、揚(yáng)眉(大于平均值)和正常(等于平均值)三類。
眼睛微表情變化:記左眼特征點(diǎn)37為P1,、38為P2,、39為P3,、40為P4,、41為P5、42為P6,。計(jì)算上下眼皮距離之和與眼睛長度之比
,。通過機(jī)器學(xué)習(xí),學(xué)到了眼睛微表情變化閾值,,依據(jù)這個閾值將眼睛微表情變化分為睜大眼(EAR≥0.28),、正常(0.2 ≤ EAR
嘴唇微表情識別:計(jì)算嘴唇特征點(diǎn)63(上嘴唇)和 67(下嘴唇)的歐式距離D,求出D的最大值DMAX,然后計(jì)算D與DMAX 的比RD,,基于機(jī)器學(xué)習(xí)學(xué)得RD閾值,,再依據(jù)這個閾值將嘴的微表情分成張大嘴(RD≥0.4)、咪咪嘴(0
嘴角微表情識別:計(jì)算左嘴唇L(特征點(diǎn)49),、右嘴唇R(特征點(diǎn) 55)與鼻梁穩(wěn)定點(diǎn)N(特征點(diǎn)31)組成三角形的角度∠NLR 和∠NRL 的值,。每個人鼻梁與嘴角的基礎(chǔ)夾角通常不同,首先針對于不同的受測者,,其需事先提供約1分鐘嘴部處于正常狀態(tài)的視頻,,統(tǒng)計(jì)視頻中鼻梁與嘴角夾 角值,分別計(jì)算和記錄∠NLR 和∠NRL 的平均值,。當(dāng)大于平均值時分類為嘴角上揚(yáng),,當(dāng)小于平均值時分類為嘴角下壓。
一個微表情的出現(xiàn)是由一個或多個面部局部區(qū)域的變化組成的,。將眼睛,、嘴巴、眉毛相應(yīng)的動作狀態(tài)適當(dāng)組合,,可以建立微表情識別因果關(guān)系模型(見圖9),。例如,微笑:瞇瞇眼 + 咪咪嘴 + 嘴角上揚(yáng),,驚訝:睜大眼 + 揚(yáng)眉,,傷心:咪咪眼 + 嘴角下壓,憤怒:瞇瞇眼 + 閉嘴 + 揚(yáng)眉,。
我們實(shí)驗(yàn)室開發(fā)一個微表情識別工具,,可以實(shí)時地識別檢測者的微表情變化(見圖10)。
四,、結(jié)束語
人工智能自誕生時起,,歷時近70年,經(jīng)歷了三次高潮,,現(xiàn)在進(jìn)入沉思發(fā)展期,,其特征是關(guān)注人工智能的可信性。本報(bào)告總結(jié)歸納出人工智能可信性的六個屬性,,這些是人工智能可信性研究的基礎(chǔ),,隨著研究的深入,更多人工智能可信性屬性會被提出,。此外介紹了華東師范大學(xué)可信智能實(shí)驗(yàn)室在人工智能的可信性研究工作取得的進(jìn)展,。但本報(bào)告的初衷是期待著年輕的科學(xué)工作者投入到人工智能可信性的研究,使更加創(chuàng)新的人工智能可信性研究成果涌出,,更加可信的人工智能產(chǎn)品惠及社會,。
(參考文獻(xiàn)略)
選自《中國人工智能學(xué)會通訊》
2022年第12卷第6期
演講實(shí)錄
免責(zé)聲明:本文來自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有,。轉(zhuǎn)載請注明出處:http://lequren.com/1128697.html
溫馨提示:投資有風(fēng)險,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議,。