日前,360網(wǎng)絡安全北美研究院負責人,360 IoT安全研究院院長李康與360智能網(wǎng)聯(lián)汽車安全實驗室總監(jiān)張青聯(lián)合宣布360的一項全新研究成果,可為人工智能的算法測試尤其是智能汽車的測試提供了一把“尺子”,簡單理解就是人工智能算法的調(diào)試器。
這把“尺子”什么樣
李康表示,深度學習系統(tǒng)是基于分層統(tǒng)計學方法得到的結(jié)論,和傳統(tǒng)的計算機軟件系統(tǒng)不一樣,并沒有專門的測試平臺對系統(tǒng)進行測試和調(diào)試。
“傳統(tǒng)的軟件測試我們有污點跟蹤、覆蓋測試等各種方法,而對于深度學習測試來說,工程師面對的是一個黑盒。”李康說道。
人工智能時代的大數(shù)據(jù)就是過去的源代碼,而對于現(xiàn)階段機器學習測試來講,更多是依靠數(shù)據(jù)測試,人肉測試。所以我們也能看到Uber等無人駕駛汽車在實際道路上反復駕駛測試,但是對于測試人員來說,并不知道數(shù)據(jù)之中的邏輯,也無法判斷自己測試結(jié)果的好壞,不了解有多少神經(jīng)元進行了測試,給調(diào)試帶來了困難。
360目前提供的方案可以給深度學習正確或錯誤的決策提供輸入輸出關(guān)系,并且相對量化測試的程度,從而提高深度學習黑盒測試的準確率,通過熱力圖等可視化界面,讓工程師了解哪些神經(jīng)元反復執(zhí)行,哪些神經(jīng)元一直都沒有激活。
實際道路測試10個小時和100個小時的測試結(jié)果肯定不同,下雨天測試和太陽底下測試的效果也不同,但究竟不同的有多少,就需要李康的這把“尺子”丈量,通過量化的比對,可幫助開發(fā)人員進行深度學習系統(tǒng)的調(diào)試與評測工作。
把深度學習變得可解釋
“過去包括豐田剎車門等事故,可以精確地定位到哪個程序有問題,而Uber、特斯拉的事故,很難真正判斷出出錯的邏輯和原因是什么,因為深度學習大多數(shù)是經(jīng)驗性的,可能更換了一個場景,測試結(jié)果就完全不對了。”李康說道。
目前360所做的被測模型全部是由英偉達官網(wǎng)提供的開源數(shù)據(jù)進行測試,360也希望可以和更多車廠、智能駕駛系統(tǒng)商合作,共同對數(shù)據(jù)進行測試以驗證這一方案的可靠性。
李康也表示,這一調(diào)試器方案設想不只是針對智能駕駛汽車,而是針對所有帶人工智能和神經(jīng)元的測試系統(tǒng)?!拔覀円巡豢山忉尩纳疃葘W習變成可解釋的?!崩羁嫡f道。
李康在安全對抗網(wǎng)絡方面有著豐富經(jīng)驗,是Disekt、SecDawgs CTF戰(zhàn)隊創(chuàng)始人,是xCTF和藍蓮花戰(zhàn)隊的啟蒙老師,2016年DARPA Cyber Grand Challenge的決賽獲獎者。相信隨著越來越多的深度學習公司尤其是在自動駕駛領(lǐng)域,意識到測試的安全性和重要性之后,360的這一方案會得到業(yè)界認可。