2020 年 8 月 7 日,第五屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2020)于深圳正式拉開帷幕。
CCF-GAIR 2020 峰會(huì)由中國計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,香港中文大學(xué)(深圳)、雷鋒網(wǎng)聯(lián)合承辦,鵬城實(shí)驗(yàn)室、深圳市人工智能與機(jī)器人研究院協(xié)辦。
從 2016 年的學(xué)產(chǎn)結(jié)合,2017 年的產(chǎn)業(yè)落地,2018 年的垂直細(xì)分,2019 年的人工智能 40 周年,峰會(huì)一直致力于打造國內(nèi)人工智能和機(jī)器人領(lǐng)域規(guī)模最大、規(guī)格最高、跨界最廣的學(xué)術(shù)、工業(yè)和投資平臺(tái)。
本次峰會(huì)之上,中國工程院院士、鵬城實(shí)驗(yàn)室主任高文教授在線上為與會(huì)者們帶來了一場精彩紛呈的開場報(bào)告。
高文教授介紹,城市大腦1.0是一個(gè)以云計(jì)算為核心的系統(tǒng),由于系統(tǒng)各部分之間沒有很好的分工協(xié)調(diào)機(jī)制,使得系統(tǒng)成本高、響應(yīng)速度慢、數(shù)據(jù)的可利用性低。
在他看來,城市大腦2.0是一個(gè)端邊云分工協(xié)調(diào)的混合系統(tǒng)架構(gòu),可以有效解決城市大腦1.0的大部分問題。
城市大腦2.0的核心在于數(shù)字視網(wǎng)膜及其標(biāo)準(zhǔn)化,它相較城市大腦1.0具備四大方面的性能提升:
1、它有先進(jìn)視頻編碼技術(shù):節(jié)省存儲(chǔ)和帶寬50%以上;
2、它可以定制ASIC邊緣計(jì)算:節(jié)省云計(jì)算資源90%以上;
3、它能在原始圖像上特征提取:低延時(shí)和高精度;
4、它還可以做標(biāo)準(zhǔn)化特征的提取,存儲(chǔ)和復(fù)用:顯著提升信息密度和價(jià)值。
以下是高文院士線上演講的精彩內(nèi)容,雷鋒網(wǎng)作了不改變?cè)獾恼砼c編輯:
今天我與大家分享的演講主題叫做“城市大腦2.0,邊端云合理分工的人工智能賦能系統(tǒng)”。
先談?wù)劦谝粋€(gè)話題:城市大腦1.0。
城市大腦是現(xiàn)有智慧城市中的一個(gè)核心系統(tǒng),它將算力及數(shù)據(jù)匯聚到一起,加上算法就可能產(chǎn)生出非常好的結(jié)果。
譬如,基于互聯(lián)網(wǎng)的數(shù)據(jù)、政務(wù)的數(shù)據(jù)、社會(huì)的數(shù)據(jù),把它們集中到一起,提供一個(gè)云計(jì)算服務(wù),就可以提升政府效率、加速企業(yè)創(chuàng)新。
智慧城市系統(tǒng)之中,匯集了各類各樣的數(shù)據(jù),其中有90%左右的數(shù)據(jù)都與圖像、視頻相關(guān)聯(lián),如何處理好圖像和視頻數(shù)據(jù),在城市大腦系統(tǒng)中是非常關(guān)鍵的要素。
現(xiàn)有的系統(tǒng)中,數(shù)據(jù)基本以圖像與視頻兩種形式進(jìn)入:
第一種模式:攝像頭就是一個(gè)簡單的傳感器,捕捉到圖像或者視頻以后,進(jìn)行一個(gè)編碼壓縮,傳送給云端,云端將它存儲(chǔ)起來。
也可能將它解碼之后進(jìn)行分析,識(shí)別出人臉、車輛,或者進(jìn)行交通數(shù)據(jù)的分析等等,這是一種信息或者數(shù)據(jù)感知的模式。
另一種模式叫做智能終端,在攝像頭這一端就把人臉或者車牌等信息識(shí)別出來,識(shí)別出來的信息被傳送到云端,直接可以進(jìn)行分析使用。
這兩種模式是目前城市大腦中數(shù)據(jù)使用的主要模式,當(dāng)然這兩種模式都多多少少存在一些問題。
如果僅僅作為一個(gè)感知終端,后面如果需要調(diào)用,除了解碼以外,還要進(jìn)行特征提取等工作,需要大量的計(jì)算程序,這些計(jì)算非常耗費(fèi)云計(jì)算算力資源。另外,智能終端還無法識(shí)別出未被指定的人或物。
所以,我們我們需要一個(gè)更好的系統(tǒng),這個(gè)系統(tǒng)不僅云上算力資源需求不多且可以完成一些未經(jīng)規(guī)定的動(dòng)作。
現(xiàn)在的城市大腦1.0,它是一個(gè)具有海量數(shù)據(jù)的系統(tǒng),但是這個(gè)海量數(shù)據(jù)并不等于大數(shù)據(jù),因?yàn)?0%的海量數(shù)據(jù)都是沒有結(jié)構(gòu)化的,只是進(jìn)行了一個(gè)簡單的編碼壓縮。
另外,這些數(shù)據(jù)的價(jià)值也比較低,它不是結(jié)構(gòu)化的,你無法在上面進(jìn)行分析,這也是為什么很多智慧城市的視頻數(shù)據(jù),一段時(shí)間之后就被覆蓋了。
怎么才能改變這個(gè)現(xiàn)狀呢?其實(shí)問題的實(shí)質(zhì)就是現(xiàn)有的城市大腦里的數(shù)據(jù)表達(dá)是不到位的。
為什么不到位呢?如果你只是感知數(shù)據(jù)后,將編碼壓縮送到云端,它還是一個(gè)非結(jié)構(gòu)化的數(shù)據(jù);如果你把它識(shí)別出來是張三、李四,或者車牌號(hào)多少,雖然它已經(jīng)結(jié)構(gòu)化了,但是它是過度結(jié)構(gòu)化的,對(duì)于沒有規(guī)定的任務(wù)就無法執(zhí)行了。
所以我們需要一種泛化能力更強(qiáng)的數(shù)據(jù)表達(dá),這個(gè)數(shù)據(jù)的表達(dá)是一個(gè)機(jī)緣表達(dá),用這些機(jī)緣既可以完成現(xiàn)有的任務(wù),也可以完成現(xiàn)在還沒有定義的一些任務(wù)。
當(dāng)然這些數(shù)據(jù)表達(dá)想要得到一個(gè)比較好的結(jié)果,整個(gè)系統(tǒng)就必須做得好。所以我們現(xiàn)在考慮城市大腦應(yīng)該有一套評(píng)測的指標(biāo),包括系統(tǒng)的智力、性能(響應(yīng)時(shí)間、并發(fā)、吞吐)、效率(耗電多大)等等。
如果某套系統(tǒng)可以通過評(píng)測,那就代表這套系統(tǒng)比較智能化了。
城市大腦1.0系統(tǒng)的弊端在于:它的智能代價(jià)比較高,要么是造價(jià)高、要么就是耗電高。
我們希望城市大腦變得更智能,或者效率更高,怎么辦呢?我們希望把現(xiàn)有的城市大腦1.0升級(jí)到2.0。
一個(gè)可能的做法就是要合理分工,我們把原來的傳感網(wǎng)絡(luò)和云合并的機(jī)器變成邊端云協(xié)同的機(jī)器,云上只需要配備最低的算力,一部分計(jì)算放置于邊緣,一部分計(jì)算分配給終端,這樣組合起來使得整個(gè)系統(tǒng)最優(yōu)化。
系統(tǒng)到底應(yīng)該怎么升級(jí),或者這個(gè)結(jié)構(gòu)做成什么樣比較好,我們先來看看人的視覺系統(tǒng)是怎么運(yùn)行的。
人的視覺系統(tǒng)是非常合理的、能效比非常高的系統(tǒng)。比如說我們每天只消耗相當(dāng)于20瓦電燈泡的能耗就能做很多的事情。
人的視覺系統(tǒng)為何可以做到如此的低功耗、高效率?人的視覺系統(tǒng)主要由三部分組成,包括眼睛、視覺通路和大腦的視覺眼,這三部分分工非常嚴(yán)密。
比如說大腦有了一個(gè)刺激信號(hào),通過神經(jīng)通路傳到大腦不同的視覺眼,不同的視覺眼分工做不同的響應(yīng),就可以完成很多事情,比如說感知、決策等。
不同的感知路徑或者不同任務(wù)的復(fù)雜度,其實(shí)人的響應(yīng)度是不一樣的。(見PPT)這是1992年一張研究的示意圖,你可以看到當(dāng)你給一個(gè)人下了一個(gè)指令說“你給我按一下綠色按鈕”,這個(gè)執(zhí)行是需要經(jīng)過一定延遲的,比如說視網(wǎng)膜有35毫秒的延遲,從視網(wǎng)膜到下一個(gè)環(huán)節(jié)又有30毫秒的延遲,最后到了肌肉、手指頭動(dòng)作下去,大概有250毫秒的延遲,這個(gè)延遲就告訴我們,對(duì)不同的任務(wù),我們整個(gè)視覺通道和腦的處理分工是非常嚴(yán)密的,使得簡單的任務(wù)可以響應(yīng)很快,復(fù)雜的任務(wù)響應(yīng)很慢,分工合作,這樣的系統(tǒng)就能做到能量最優(yōu)化。
視覺系統(tǒng)最前端是視網(wǎng)膜,它的結(jié)構(gòu)是由感光細(xì)胞、雙極細(xì)胞和神經(jīng)節(jié)細(xì)胞三類細(xì)胞組成的。
數(shù)字視網(wǎng)膜里面,大概有1.2億到1.26億個(gè)感光細(xì)胞,其中有錐狀細(xì)胞核桿狀細(xì)胞,錐狀細(xì)胞有600多萬個(gè),桿狀細(xì)胞有1.2億個(gè),它們可以感知光線的強(qiáng)弱等等。
這些感光細(xì)胞通過雙極細(xì)胞,最后匯聚到神經(jīng)節(jié)細(xì)胞,進(jìn)到神經(jīng)纖維、視覺通道,通過大腦進(jìn)行傳輸。
神經(jīng)節(jié)細(xì)胞的數(shù)量只有差不多100萬個(gè),換句話說從視網(wǎng)膜到視神經(jīng),它已經(jīng)有一個(gè)差不多125:1的減縮,這個(gè)減縮我們可以把它理解成視覺信號(hào)的壓縮,或者特征壓縮。
所以我們?cè)谝暰W(wǎng)膜和大腦之間已經(jīng)有一個(gè)壓縮,這個(gè)壓縮應(yīng)該說對(duì)整個(gè)大腦有效的工作其實(shí)是起到非常關(guān)鍵作用的。
當(dāng)然它不僅僅是一個(gè)壓縮,它和后面的感知是緊密相關(guān)的,比如根據(jù)你任務(wù)的簡單和復(fù)雜程度,它們提取的視覺特征也不一樣,簡單的任務(wù)就會(huì)優(yōu)先采取相關(guān)的策略,復(fù)雜的任務(wù),它就把相關(guān)的信息往后傳。
一個(gè)生物識(shí)別系統(tǒng)的簡化模型,從視網(wǎng)膜到大腦,信息進(jìn)來以后經(jīng)過一個(gè)特征的編碼壓縮,特征提取出來以后向后傳輸,傳到智能主體(腦),所以在視網(wǎng)膜這一端是一個(gè)定制的輕量級(jí)的計(jì)算,通過視神經(jīng)這樣一個(gè)有限帶寬的通信送到智能體。
這樣一個(gè)簡化模型,對(duì)視覺通道是有很大作用的,所以大腦上有一個(gè)通用計(jì)算,這里我們可以把它整個(gè)特征的類別分為結(jié)構(gòu)特征和行為特征,這個(gè)模型是經(jīng)過自然進(jìn)化,最后產(chǎn)生出這樣一個(gè)優(yōu)勝劣汰找到的答案。
這個(gè)答案告訴我們仿生視網(wǎng)膜的架構(gòu),它有非常好的能量優(yōu)化的特點(diǎn),這個(gè)特點(diǎn)可以給我們提供一個(gè)很好的借鑒,如果我們想把整個(gè)城市大腦也做得能量優(yōu)化或者能量高效化,就可以按照這樣的構(gòu)造來進(jìn)行結(jié)構(gòu)。
所以從視網(wǎng)膜傳到大腦之間,它是一個(gè)特征壓縮,我們叫做特征編碼,當(dāng)然這個(gè)編碼和現(xiàn)在傳統(tǒng)的圖像編碼并不一樣,它是一個(gè)特征壓縮編碼的東西送到大腦中去。
另外,現(xiàn)在我們城市大腦里面不能僅傳特征,也要傳壓縮圖像,因?yàn)橛械臅r(shí)候我們還需要用人眼去確認(rèn)一些東西,所以壓縮圖像也還是要傳的,這就使得我們現(xiàn)在城市大腦里的架構(gòu)和真人的視覺系統(tǒng)并不完全一樣,我們是兩個(gè)綜合或者綁定的系統(tǒng)。
有了這樣一個(gè)借鑒,下面我們就看城市大腦2.0到底應(yīng)該怎么樣來設(shè)計(jì)。
很顯然它必須是一個(gè)邊、端、云合理分工的系統(tǒng),這個(gè)系統(tǒng)我們經(jīng)過了一段時(shí)間思索以后,2018年我們就投出一篇論文,這篇論文最后是在2018年5月份網(wǎng)絡(luò)出版,最后正式是在2018年8月份在《中國科學(xué)》上發(fā)表,我們把邊、端、云結(jié)合的最核心的技術(shù)叫做數(shù)字視網(wǎng)膜,它是整個(gè)城市大腦2.0里面一個(gè)基本架構(gòu),我們把它叫做仿生視網(wǎng)膜的計(jì)算架構(gòu)。
數(shù)字視網(wǎng)膜現(xiàn)在形成了有8個(gè)特征的定義,這8個(gè)特征原則上分成三大組。
第一組特征的定義是和時(shí)空有關(guān)的,一個(gè)數(shù)字視網(wǎng)膜的終端必須要有全局統(tǒng)一的時(shí)空ID,包括全網(wǎng)統(tǒng)一的時(shí)間和精確的地理位置,比如說GPS或者北斗的位置,有了這個(gè)東西之后,城市大腦就很容易同步,或者很容易可以對(duì)標(biāo)。
第二組特征簡單來說是視頻編碼+特征編碼+聯(lián)合優(yōu)化,這是所有的攝像頭都應(yīng)該支持的一個(gè)工作,當(dāng)前絕大部分?jǐn)z像頭只支持視頻編碼。
視頻編碼很容易理解,就是為了存儲(chǔ)和離線觀看影像重構(gòu)。
特征編碼是為了模式識(shí)別和場景理解的緊湊特征表達(dá),聯(lián)合優(yōu)化是因?yàn)楝F(xiàn)在在城市大腦里面它有兩個(gè)碼流,一個(gè)是視頻編碼壓縮流,一個(gè)是特征編碼壓縮流,這兩個(gè)碼流會(huì)捆綁到一起進(jìn)行傳輸,所以我們要有一個(gè)優(yōu)化策略,把這個(gè)帶寬到底分多少給視頻編碼、分多少給特征編碼,這樣通過一個(gè)聯(lián)合優(yōu)化,使得整個(gè)系統(tǒng)是最優(yōu)的。
第三組特征,簡單來說就是模型可更新、注意可調(diào)節(jié)、軟件可定義。
什么叫模型可更新呢?因?yàn)槲覀儸F(xiàn)在必須要考慮怎么樣支持神經(jīng)元網(wǎng)絡(luò),不同的模型升級(jí)了,你要可以實(shí)時(shí)更新。
注意可調(diào)整是說,現(xiàn)在的攝像頭是沒有注意的,你把這個(gè)東西指到哪兒,景深設(shè)定到哪兒,它就在那兒,當(dāng)然可以通過人工遠(yuǎn)程調(diào)節(jié)它,可以拉近、拉遠(yuǎn)等等,但是它不是自動(dòng)的,我們希望它能做到自動(dòng)的注意可調(diào)節(jié)。
最后一個(gè)特征就是軟件可定義,這一點(diǎn)大家很容易理解,系統(tǒng)要想升級(jí),可以通過軟件定義的方法,對(duì)系統(tǒng)自動(dòng)升級(jí)。這三個(gè)特點(diǎn)如果具備,終端就可以做得非常智能。
當(dāng)然,要想把數(shù)字視網(wǎng)膜技術(shù)全部用起來,這里面有一些使能技術(shù)。
第一個(gè)是視頻編碼,現(xiàn)在做城市大腦、監(jiān)控系統(tǒng)都離不開視頻編碼,攝像頭里面都有一個(gè)視頻編碼芯片,視頻編碼芯片用的標(biāo)準(zhǔn),最早期是H.264,或者用AVS的編碼標(biāo)準(zhǔn),最近開始使用H.265或者AVS2的標(biāo)準(zhǔn),未來不久就會(huì)用上H.266和AVS3的標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)差不多每10年就會(huì)更新一代,效率每10年就會(huì)提高一倍。
為什么能夠做到編碼壓縮?一個(gè)視頻是一個(gè)圖像序列,圖像序列里面包含了很多數(shù)據(jù)的冗余,基本上有三大類冗余:一類是和空間冗余有關(guān)的,一類是和時(shí)間冗余有關(guān)的,另外一類是和編碼冗余有關(guān)的。
所以現(xiàn)在整個(gè)視頻編碼里面用的算法,我們一般把它叫做混合視頻編碼架構(gòu),這個(gè)混合就把剛才三種主流的冗余用不同的算法去掉。
比如說為了去除空間冗余,一般我們采用正交變換,比如說DCP變換等等正交變換把它去除掉。為了去除時(shí)間上的冗余,就是幀和幀上的冗余,一般我們會(huì)采取預(yù)測編碼,比如說各種各樣的濾波器,把幀間的冗余去除掉。
為了使得編碼的分配最符合熵的定義,我們使用信息熵編碼來去除編碼上的冗余,這三個(gè)冗余都去除干凈了,整個(gè)視頻流里就可以壓得很小,只有有用的信息、有用的數(shù)據(jù)甩出去,這些冗余都被擠壓掉了,這是視頻編碼。
要想把視頻編碼做得好,算法要做得很精,隨著時(shí)間的推移,我們可以用計(jì)算、帶寬把這些東西一點(diǎn)點(diǎn)都去除掉。
當(dāng)然,這些年我們除了不停地優(yōu)化算法之外,我們還提出了一種背景建模的技術(shù),使得編碼效率在原有的技術(shù)上又可以提高一倍。
這里有很詳細(xì)的一些數(shù)據(jù)測試作為依據(jù),而且這些東西都已經(jīng)發(fā)表論文,比如2014年我們?cè)赥IP發(fā)表了一篇論文,里面有這樣一些研究結(jié)果。
AVS2在2016年已經(jīng)成為我國的標(biāo)準(zhǔn),同時(shí)它也是IEEE1857標(biāo)準(zhǔn)的第四部分?,F(xiàn)在我們做AVS3的時(shí)候,就是IEEE1857的第10部分。
AVS標(biāo)準(zhǔn)是在2019年3月份第一版就發(fā)布了,H.266一直到今年7月份第一版才發(fā)布,我們超前了H.266有一年三個(gè)月,這是有史以來第一次。
AVS3這個(gè)標(biāo)準(zhǔn)去年3月份第一版發(fā)布以后,去年9月份海思就把芯片做出來了,在阿姆斯特丹的一次廣電展上,這款芯片一經(jīng)面市,引起了很大的轟動(dòng)。
它可以支持AVS3、8K解碼,是120幀的,這個(gè)芯片現(xiàn)在已經(jīng)裝配在很多4K、8K電視、機(jī)頂盒等等。
第二個(gè)使能技術(shù)就是特征編碼,這是非常關(guān)鍵的一個(gè)使能技術(shù),這個(gè)技術(shù)里面它的標(biāo)準(zhǔn)有兩部分核心的內(nèi)容,一部分叫CDVS,一部分叫CDVA,這兩部分現(xiàn)在也都是國際標(biāo)準(zhǔn)MPEG-7里面的兩部分,一個(gè)是第13部分,一個(gè)是第15部分。
為什么要做視覺特征的壓縮呢?因?yàn)楦鶕?jù)不同的特征,提取出來的特征數(shù)據(jù)可能很大,如果不壓縮的話,搞不好特征數(shù)據(jù)比圖像本身都大,所以要么你就傳個(gè)圖像過去,要傳特征的話數(shù)據(jù)太大,所以就要對(duì)它進(jìn)行特征壓縮。
怎么進(jìn)行壓縮?原來有不同的考慮,如果是先把圖像編碼傳過去,再提取特征,再進(jìn)行識(shí)別,和先把特征提取出來,然后把特征傳過去再識(shí)別,這兩個(gè)其實(shí)有一個(gè)剪刀差,可能有時(shí)候識(shí)別率會(huì)先差百分之二三十。
就是說先壓縮了以后,可能有一些比較有用的特征丟了,因?yàn)樗^編碼壓縮,它是保留公共部分,把一些非公共的、非常見的東西壓縮掉了,而非常見的部分恰恰可能是特征,所以你把這個(gè)打磨掉以后,它的識(shí)別率可能就下來了,所以我們是先提特征,再在云端技術(shù)識(shí)別這樣一個(gè)技術(shù)策略。
當(dāng)然先提特征,怎么樣提的特征體量比較小,我們初期是采用手工作業(yè)的策略,當(dāng)然手工特征怎么支持深度學(xué)習(xí),這是另外一個(gè)問題,后面我們做了第一版以后,又專門做了一個(gè)面向深度學(xué)習(xí)的編碼壓縮的框架,這個(gè)主要是給小視頻來做的,有了這兩個(gè)部分以后,基本上可以應(yīng)對(duì)圖像特征編碼和視頻特征編碼這兩個(gè)需求。
圖像特征編碼就是CDVS,視頻特征編碼就是CDVA。CDVS是手工特征的,里面使用的是一個(gè)類SIFT的特征集,SIFT大家都知道,當(dāng)你給的比特?cái)?shù)據(jù)比較少的時(shí)候,它就給一些比較宏觀的特征。
基于這樣的思路,用這種類SIFT,我們提出了一個(gè)特征表達(dá)的標(biāo)準(zhǔn),然后來看它的性能,經(jīng)過幾年的時(shí)間,這個(gè)性能越提越高,最后把它固定下來。
CDVS實(shí)際深是從2012年2月份就開始做,到了2015年6月份就做完了,就完全凍結(jié)掉了,最后成為國際標(biāo)準(zhǔn),所以差不多花了4年的時(shí)間把它做出來。
CDVA是在2015年做完以后,標(biāo)準(zhǔn)化組織團(tuán)隊(duì)就馬上轉(zhuǎn)向利用深度學(xué)習(xí)去做視頻分析特征壓縮的問題,也是花了差不多兩年多、三年的時(shí)間慢慢把它做出來,這個(gè)是可以對(duì)深度網(wǎng)絡(luò)的短視頻,用它做特征的提取、做表達(dá),后面每次這個(gè)特征的性能都會(huì)有所提高,對(duì)不同的網(wǎng)絡(luò),它的特征的檢出和特征識(shí)別的效率也都在逐步提高,所以每次提高的趨勢。
第三個(gè)使能技術(shù),我們把它叫做聯(lián)合優(yōu)化。所謂聯(lián)合優(yōu)化,就是在視頻編碼和特征編碼之間,我要找到一個(gè)最優(yōu)的結(jié)合點(diǎn),使得這兩個(gè)流捆綁到一起的時(shí)候,腦力分配是最優(yōu)的,上面這個(gè)流是視頻壓縮流,下面這個(gè)流是特征壓縮流,這樣送到云里,它倆合起來是最優(yōu)的。
怎么能夠做到最優(yōu)呢?因?yàn)楦髯缘膬?yōu)化模型都是有的,比如現(xiàn)在我們看到的這些是上面這部分,它是一個(gè)視頻編碼優(yōu)化的流程,上面的虛線是視頻編碼,下面的虛線是特征編碼,這兩個(gè)編碼在右端,我們是合成一個(gè)流,就是視頻和特征流。
這一個(gè)流我們?cè)趺礃觾?yōu)化呢?我們要設(shè)置一個(gè)聯(lián)合優(yōu)化流程,把它放到一起去優(yōu)化。視頻編碼的優(yōu)化模型叫RBO,RBO就是給定碼率損失最小的優(yōu)化模型,它的優(yōu)化曲線就是右下角這個(gè)曲線。在識(shí)別特征表達(dá)這一塊,它是有一個(gè)RAO,就是給定碼率,讓你精確度最高的優(yōu)化模型。
這個(gè)優(yōu)化模型給的曲線是反過來的,所以我們把這兩個(gè)需要優(yōu)化的東西給它放到一個(gè)優(yōu)化函數(shù)里面表達(dá)出來,就是這張圖的表達(dá),根據(jù)這個(gè)東西我們聯(lián)合求解一個(gè)優(yōu)化的解,這就是第三個(gè)使能技術(shù)。
第四個(gè)使能技術(shù)是深度學(xué)習(xí)模型編碼的使能技術(shù),就是通過多模型的重用,通過模型壓縮更新來做。這是深度學(xué)習(xí)怎么樣去通過重用去使得整個(gè)模型的重用精度更高。
這個(gè)重用既包括現(xiàn)有模型的重復(fù)使用,也根據(jù)目標(biāo)模型訓(xùn)練所得到的提升,使得優(yōu)化做得更好。
這樣一個(gè)多模型重用,如果是在學(xué)習(xí)體系里面把它用好的話,它的性能就可以提高得比較好,所以怎么樣使得這個(gè)多模型編碼壓縮,使得在重用當(dāng)中可以快速地更新一個(gè)模型,就使得這個(gè)性能不停地提升,這兩個(gè)就是模型編碼的主要?jiǎng)訖C(jī),有了這個(gè)就可以使得當(dāng)你模型訓(xùn)練完了以后,壓縮完了以后就可以快速推到終端去升級(jí)你的模型。
上面這些使能技術(shù),最后它要匯總到一個(gè)芯片里面,這個(gè)芯片現(xiàn)在在北大杭州研究院下面的一家公司做出來了,第一個(gè)數(shù)字視網(wǎng)膜的芯片叫GV9531,剛才說的三組8個(gè)特性,這個(gè)芯片全都是支持的。
這個(gè)芯片目前也已經(jīng)做成了板卡,比如說有4顆芯片的卡、16顆芯片的卡,這些板卡已經(jīng)可以支持邊緣端,一下支持上百路甚至幾百路的攝像頭數(shù)字視網(wǎng)膜特征提取的傳輸。
除了數(shù)字視網(wǎng)膜本身以外,現(xiàn)在配合人工智能技術(shù)的推進(jìn),也在推動(dòng)中國的一些AI技術(shù)的國家標(biāo)準(zhǔn),包括神經(jīng)網(wǎng)絡(luò)模型表示與壓縮的標(biāo)準(zhǔn)、城市級(jí)大數(shù)據(jù)匯集關(guān)聯(lián)的規(guī)范和標(biāo)準(zhǔn),包括這些標(biāo)準(zhǔn)研究開發(fā)的路線圖,什么時(shí)候要把哪個(gè)標(biāo)準(zhǔn)提出來完成等等。
數(shù)字視網(wǎng)膜簡單來說是三個(gè)編碼流合并的系統(tǒng),當(dāng)然前兩個(gè)是最主要的,就是視頻流和特征流,這兩個(gè)流時(shí)時(shí)刻刻都是匯集到一起進(jìn)行傳輸?shù)?,第三個(gè)是模型編碼,只是在模型需要壓縮的時(shí)候,從云端推到邊緣端或者終端上,進(jìn)行一些增量的更新。
有了數(shù)字視網(wǎng)膜,就相當(dāng)于城市大腦邊緣或者是終端方面就可以做得更高效,效能比更高,這樣就可以使得云端的算力不需要那么多,或者說云端的響應(yīng)可以更精確、速度更快,這樣就使得城市大腦可以做得更好一些。
為了配合這個(gè)工作,現(xiàn)在城市大腦包括一些中臺(tái)怎么考慮、業(yè)務(wù)支撐怎么考慮,應(yīng)用怎么考慮,現(xiàn)在在鵬城實(shí)驗(yàn)室都有一些比較完整的設(shè)計(jì)和規(guī)劃。所以整體來說,我們把城市大腦2.0里面的數(shù)字視網(wǎng)膜也可以簡稱為云腦視網(wǎng)膜,這個(gè)可以利用鵬城云腦的算力去提升它的能力。
鵬城云腦到現(xiàn)在為止已經(jīng)投入了幾十億元去打造,鵬城云腦只有100P的算力,雖然說只有100P的算力,這也是到目前為止國內(nèi)作為AI訓(xùn)練算力最大的一套系統(tǒng)。
后面還會(huì)有更強(qiáng)的系統(tǒng),現(xiàn)在我們有一個(gè)原型,可以有數(shù)據(jù)進(jìn)來,對(duì)數(shù)據(jù)進(jìn)行標(biāo)注、采集,可以進(jìn)行訓(xùn)練,訓(xùn)練完了以后就可以用剛才這些和芯片有關(guān)的系統(tǒng)進(jìn)行提取,然后可以分析和識(shí)別。
這個(gè)原型系統(tǒng),一般的邊緣用的,甚至在云端大數(shù)據(jù)服務(wù)里面用的東西,現(xiàn)在都在逐步進(jìn)入系統(tǒng),上面會(huì)有各種各樣的參考軟件,去配合硬件的東西,最上面是開源的算法訓(xùn)練,有這些東西之后,將來在鵬城云腦上就會(huì)對(duì)城市大腦進(jìn)行比較強(qiáng)有力的支持。
現(xiàn)在已經(jīng)有一些演示驗(yàn)證的案例,比如說對(duì)系統(tǒng)驗(yàn)證,比如說對(duì)深圳交警提供的一些數(shù)據(jù)進(jìn)行視頻的驗(yàn)證,另外還可以進(jìn)行視頻的追蹤等等。
在光明區(qū)也進(jìn)行了一些實(shí)際驗(yàn)證,對(duì)于停車、擁堵等問題都可以很好地分析和發(fā)現(xiàn)。
這就是城市大腦2.0到現(xiàn)在為止的一些情況。
總結(jié)一下,城市大腦1.0是一個(gè)以云計(jì)算為核心的系統(tǒng),由于系統(tǒng)各個(gè)部分分工協(xié)調(diào)不太好,所以系統(tǒng)成本比較高,響應(yīng)速度慢,數(shù)據(jù)的可利用度比較低。借鑒人的視覺系統(tǒng),比如說人的視網(wǎng)膜、視覺通道、大腦分工非常協(xié)調(diào),非常合理。
城市大腦2.0就是借鑒這樣一個(gè)系統(tǒng)提出的一個(gè)體系架構(gòu),這個(gè)體系架構(gòu)要想把它做出來,需要數(shù)字視網(wǎng)膜這樣一套思路、技術(shù)及其標(biāo)準(zhǔn)化,現(xiàn)在這些思路、技術(shù)、標(biāo)準(zhǔn)化都逐步到位。
數(shù)字視網(wǎng)膜這套系統(tǒng)上了以后,可以使得現(xiàn)有的城市大腦1.0在編碼方面節(jié)省50%的存儲(chǔ)和帶寬,在云資源的耗費(fèi)上,比現(xiàn)有的可以節(jié)省90%以上的云計(jì)算的算力資源。
而且它對(duì)于圖像特征的提取和分析延遲比較低、精度比較高,所以它有很多好處,這是數(shù)字視網(wǎng)膜希望帶給城市大腦2.0的一個(gè)好處。
當(dāng)然這個(gè)系統(tǒng)要想完善,可能還需要一點(diǎn)時(shí)間,還需要在更多的地方去做實(shí)驗(yàn)驗(yàn)證,等這些技術(shù)都成熟了,標(biāo)準(zhǔn)全都到位了,甚至城市大腦2.0真正運(yùn)營起來,對(duì)中國的城市化、智能城市等等方面會(huì)有一個(gè)比較大的貢獻(xiàn)。所以也希望大家多關(guān)注、多提比較好的建議和意見。