《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電源技術(shù) > 業(yè)界動態(tài) > 業(yè)界 | 對話鄭宇: 做城市計算比AlphaGo難多了, 但這就是我在京東金融繼續(xù)All in的事

業(yè)界 | 對話鄭宇: 做城市計算比AlphaGo難多了, 但這就是我在京東金融繼續(xù)All in的事

2018-03-08

京東金融城市計算的關(guān)系是什么?這要從剛剛加入公司的鄭宇說起。


鄭宇說,京東金融的城市計算,是一盤很大的棋。


2018 年 2 月 13 日,城市計算領(lǐng)軍人物鄭宇正式加入京東金融。此前,他曾是微軟亞洲研究院城市計算領(lǐng)域的負(fù)責(zé)人,毫不夸張地說,「城市計算」一詞,就是他提出來的。


鄭宇有一連串響當(dāng)當(dāng)?shù)念^銜——上海交通大學(xué)講座教授(Chair Professor)、香港科技大學(xué)客座教授、ACM Transactions on Intelligent Systems and Technology(TIST)主編、全球杰出青年創(chuàng)新者(MIT TR35)、2014 年《財富》雜志中國 40 位 40 歲以下商界精英...... 除了這些,鄭宇還在 Google Scholar 城市計算領(lǐng)域世界學(xué)者的論文引用排名中名列榜首。


和很多人一樣,在得知鄭宇加入京東金融這一新聞時,我的第一反應(yīng)是,為什么要去京東金融?京東金融作為金融科技公司,為什么要做城市計算?畢竟,鄭宇這次所帶領(lǐng)的,是一個一級事業(yè)部。


帶著這樣的疑問,機器之能采訪到鄭宇,希望找到問題的答案。以下為采訪實錄,機器之能做了不改變原意的整理。


京東金融給了我很大的空間,成立了一個一級事業(yè)部,從數(shù)據(jù)到研究到開發(fā)到市場,能夠形成一個閉環(huán)。這種閉環(huán)的空間不是什么地方都可以給的。


你加入京東金融這件事在業(yè)內(nèi)反響很大,是什么原因讓你做出這個決定?


我覺得有幾點原因,首先看大環(huán)境,現(xiàn)在人工智能與實體經(jīng)濟結(jié)合是大趨勢,智慧城市是抓手。這個事情一定要有人來做,我覺得現(xiàn)在是一個很好的時間點。


第二,京東金融給了我很大的空間,也給了我足夠的信任來做這件事。包括成立獨立的一級事業(yè)部等等。另外我們還會建立城市計算研究院,我還兼任整個京東金融的首席數(shù)據(jù)科學(xué)家。我覺得這是非常難得的機會。


一級事業(yè)部不像一個小組或者研究院,它是一個獨立的事業(yè)部,可以發(fā)展得很大。我們從數(shù)據(jù)到研究到開發(fā)到市場,能夠形成一個閉環(huán)。這種閉環(huán)的空間不是什么地方都可以給的。


從戰(zhàn)略制高點看的話,一級事業(yè)部的成立也說明了整個京東金融對城市計算這件事的重視,同時讓我感受到京東金融有足夠的信心和勇氣來對城市計算進行投入。


要做城市計算這件事,一定需要非常大的空間和信任,同時我需要面對的挑戰(zhàn)也會更大。以前我可能只關(guān)注研究、開發(fā)和落地,那現(xiàn)在還要關(guān)注市場、數(shù)據(jù)、資源、客戶的對接,各方面的事情都要考慮。


最后一點是,我比較認(rèn)可京東的文化和價值觀,踏踏實實地干事情,然后努力成功。確實有很多企業(yè)給我拋過橄欖枝,但是我最后還是選擇了京東金融。


你所負(fù)責(zé)的這個事業(yè)部預(yù)計要招多少人?


這個暫時要保密,再過一段時間之后,我們會有一個比較官方的宣布。


可以說的是,我們現(xiàn)在正在建立二級部門,分別著眼于環(huán)境、交通規(guī)劃等方面。所以京東金融的城市計算是一個很大的架構(gòu),不是說只是一個小團隊。


預(yù)計會建幾個二級部門?


這個到時候大家就知道了,可以說大家關(guān)心的我們都會有,像交通、環(huán)境都會有,但這個具體數(shù)字是多少,得等到具體的情況來看。


京東金融是一家服務(wù)金融行業(yè)的科技公司,為什么要做城市計算?


這里有兩個關(guān)鍵詞,金融和科技。京東金融其實是科技公司,它的商業(yè)模式是 B2B2C。當(dāng)然,很多人認(rèn)為京東金融是一個金融公司,但其實不是這樣的,它的業(yè)務(wù)是為金融行業(yè)提供一些科技技術(shù)。


比如它為銀行提供風(fēng)控模型,讓銀行更好地為 C 端客戶提供貸款服務(wù)。在這里京東金融是第一個 B,銀行是第二個 B,然后終端客戶是 C。京東金融并不是說直接放貸給個人,它更多地是扮演了一個技術(shù)賦能者的角色。


這種 B2B2C 的模式我非常認(rèn)可。因為我們可以把中間的這個 B 想象成 G。我們給相關(guān)主管機構(gòu)提供技術(shù),讓他們更好地為百姓服務(wù)。


你可以認(rèn)為,城市計算是京東金融作為一家科技公司,對現(xiàn)有業(yè)務(wù)的拓展。TO G 的業(yè)務(wù)需求會著眼于交通、環(huán)境等等,這會反哺京東金融的科技公司屬性。


我們的定位是要成為國內(nèi)最好的智慧城市技術(shù)平臺和解決方案提供方,同時我們也希望成為產(chǎn)學(xué)研一體化的典范。


京東金融當(dāng)前的業(yè)務(wù)與城市計算最緊密的連接點在哪里?


智能商業(yè)。大家對城市計算了解得比較多的方面可能是環(huán)境、交通、規(guī)劃等,但其實智能商業(yè)也是城市計算的很大一部分。包括商業(yè)選址、地產(chǎn)價格評估,還有甚至幫銀行做一些 B 端的風(fēng)控等。


舉個例子,一個企業(yè)到銀行貸款,要蓋一個娛樂城,那銀行就要對這個項目進行風(fēng)險評估,確保到了還款時間能按時收回貸款。以前銀行的方法可能是去評估這個企業(yè)本身的一些征信資質(zhì),比如壞賬率,誠信度等等。


但是企業(yè)資質(zhì)良好,不代表它開發(fā)的每個項目都沒有風(fēng)險,因為這個風(fēng)險不是企業(yè)本身決定的,而是由這個地方的發(fā)展環(huán)境和消費水平?jīng)Q定的。這些東西只能從別的數(shù)據(jù)反映,銀行本身也沒有??梢詮捻椖恐苓吘用竦南M水平反映,從人們出行的方式反映,從地區(qū)周邊的配套反應(yīng),甚至包括基礎(chǔ)設(shè)施比如路網(wǎng)、車站是不是變得越來越完善來反映,這些因素綜合決定了這個地域本身的發(fā)展程度。


這其實代表了城市計算的一個愿景,用多元的、不同的時空數(shù)據(jù)融合來做一些事情。不管是分析預(yù)測,還是因果分析,還是異常檢測,都能夠從更多維度、更準(zhǔn)確地進行。


在京東金融的城市計算布局上你有怎樣的規(guī)劃?


我們的定位是要成為國內(nèi)最好的智慧城市技術(shù)平臺和解決方案提供方,同時我們也希望成為產(chǎn)學(xué)研一體化的典范。這兩點很重要,我們不希望只是一個工程公司,賺很多錢,而是希望真的作為一個科技公司,把產(chǎn)學(xué)研帶動起來。這是國家一直強調(diào)的東西,只有這樣產(chǎn)業(yè)才有長遠的生命力。


這兩點定位之后,我們也就知道了應(yīng)該怎么做。一方面給國家相關(guān)機構(gòu)提供服務(wù),一方面給一些大型國有企業(yè)提供服務(wù),幫助他們解決行業(yè)痛點,還有就是我們會跟高校進行合作,建立一些人才聯(lián)合培養(yǎng)機制,聯(lián)合實驗室,也會合作發(fā)表一些論文,攻克一些重點難題。我們這三方面會一起做。


至于布局,各個地方的業(yè)務(wù)需求是不一樣的,有些地方可能比較關(guān)心環(huán)境,有的地方可能比較關(guān)心交通,有的地方可能關(guān)心他們自己的經(jīng)濟 GDP 問題、脫貧問題等等。所以我們會針對于各個地方的需求,盡量利用我們一個比較通用性的平臺,來滿足各地差異的需求。


所以是要看具體的需求才能決定業(yè)務(wù)開展的優(yōu)先級?還是已經(jīng)有規(guī)劃?


我們已經(jīng)有規(guī)劃,確定了大概哪幾個方向是一定要做的,先把它做起來,然后根據(jù)各個地方的需求進行定制化。交通、環(huán)境、規(guī)劃、智能商業(yè)這幾個方向是一定要做的。


是否有多長時間推進多少個城市這樣的計劃?


這種量化數(shù)字跟我們具體的團隊和人數(shù)有關(guān)系。我覺得其實這不是重點,我相信未來一段時間大家會看到我們更多的布局。


在城市計算這件事上,京東金融的優(yōu)勢是什么?


其實京東金融本身有海量的數(shù)據(jù)。根據(jù)最新財報,京東集團的活躍用戶已經(jīng)有 2.925 億。我們不僅有京東集團的商城數(shù)據(jù),包括產(chǎn)品本身數(shù)據(jù)、用戶交易數(shù)據(jù)、物流數(shù)據(jù),還有京東金融本身的一些理財、支付和消費數(shù)據(jù),構(gòu)成了一個很大的數(shù)據(jù)群體。


這些數(shù)據(jù)可以從側(cè)面描述城市的經(jīng)濟維度,甚至跟別的數(shù)據(jù)融合之后可以反映這個城市的發(fā)展趨勢,因為材料樣本已經(jīng)足夠大。特別是還有物流的數(shù)據(jù)在里面,其實也反映了城市的一些動態(tài)的韻律,跟城市和城市之間的一些消費的交往,以及物流需求的一些往來。所以說京東的數(shù)據(jù)是很好的,很難得的。


再就是京東集團在地方上跟很多管理部門已經(jīng)形成了有效配合,它的渠道和品牌效應(yīng)可以幫助我們比較順利地開展很多事情。


劣勢呢?


我覺得不能說是劣勢,就是我們未來會在哪方面進行努力。我們會把科技含量提高,然后我們會跟更多的高校合作,跟政府和企業(yè)加強聯(lián)系合作。有了我們這個事業(yè)部之后,我相信城市計算這件事情會更加順暢,變得更好。


你剛剛說到,京東金融在城市計算的智能商業(yè)領(lǐng)域有很好的條件,那在像環(huán)境、交通等領(lǐng)域,京東金融會怎樣參與?


首先,京東金融作為科技公司,我們用科技服務(wù)于各個其他的 B??梢允倾y行,也可以是有關(guān)主管部門,也可以是其下屬的大型國有企業(yè)。這樣的話我們就可以做交通服務(wù)、環(huán)境服務(wù),我們并沒有把自己限制在金融場景里面。


可能現(xiàn)在最初的一些項目是在與金融相關(guān)的消費場景中,后面慢慢地我們會建立企業(yè)信用,做企業(yè)服務(wù),也會和政府有一些項目合作。再往后可能政府以外、金融以外的很多項目也都是我們希望做的。


所以,未來京東金融的定位是科技公司,其根本是 B2 B2 C 的模式。我們強調(diào)科技服務(wù),而不強調(diào)金融本身。以后大家會越來越發(fā)現(xiàn)這個趨勢。


京東金融的城市計算和阿里的城市大腦會有怎樣的不同?


對于其他公司我不作評價。我在這個領(lǐng)域的工作十幾年前就開始了,這十幾年來也一直堅持扎根在這個領(lǐng)域。我有這樣的一個情懷,希望能用畢生所學(xué)真正地服務(wù)中國。


這也是我出來最根本的原因。我只希望我們能夠?qū)崒嵲谠诘匕殉鞘兄械膯栴}解決掉,幫助到城市建設(shè),同時我們也很愿意跟其他公司共同合作來推進這個進程。


所以您認(rèn)為城市計算的市場容量是很大的,合作大于競爭?


對,行業(yè)需求非常大,現(xiàn)在更多的應(yīng)該是推動行業(yè)共同發(fā)展。另外,城市計算有它自己特殊的業(yè)務(wù)邏輯。要做城市計算這個行業(yè),其實不是那么容易,它有它的門檻。除了技術(shù)本身的門檻之外,還有業(yè)務(wù)邏輯和場景的門檻,還有地域的限制。這就導(dǎo)致了為什么到現(xiàn)在還沒看到一家特別大的城市計算公司。很少有人能夠做到這一點,我們希望能夠做成這個最難的事。


城市計算問題狀態(tài)空間大、動作空間也大、還是一個開放系統(tǒng),問題解決起來比 AlphaGo 難多了。


城市計算問題和其它人工智能相關(guān)問題相比,有哪些特有的技術(shù)難點?


第一,城市計算是時空數(shù)據(jù),它不是一般的視頻圖像文本,它所用到的數(shù)據(jù)管理辦法和人工智能方法和其他問題都不太一樣,不是說拿一個 CNN 或者 LSTM 就能解決的。它有自己特殊的時空屬性,包括時間的趨勢、周期和鄰近性,包括空間距離和空間層次性。這些特殊的時空特性用普通算法是抓不住的。


還有就是在真正的城市計算里面,會用到多個數(shù)據(jù)源,而不是單一數(shù)據(jù)源。比如剛剛我們說到的娛樂城案例,需要用到 POI、路網(wǎng)數(shù)據(jù)點,加上環(huán)境消費等等很多種數(shù)據(jù),融合這么多數(shù)據(jù)才能判斷這個地方未來的變化。


多元數(shù)據(jù)融合本身就是一個難點,在機器學(xué)習(xí)當(dāng)中也是一個相對比較新興的學(xué)科和研究方向。來自于不同領(lǐng)域的數(shù)據(jù)如何做到 1+1 大于 2 的知識發(fā)現(xiàn),這個其實是一件很困難的事情。


同時,城市計算也不是一個簡單的云計算問題,現(xiàn)在云計算平臺對這種時空數(shù)據(jù)的支持都不足夠好。時空數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)查詢方法,以及剛剛說的多元數(shù)據(jù)的融合、索引機制都不存在,所以市面上任何一家公司的云直接拿來做城市計算都不太合適。必須要經(jīng)過特殊的技術(shù)積淀,使得云能夠具備對時空大數(shù)據(jù)的管理、分析和挖掘能力,并且形成動態(tài)閉環(huán),這非常難,門檻也很高。


所以最后會有一個京東金融城市計算云?


不,我們事業(yè)部不做云,我們希望讓市場上的云計算公司擁有挖掘分析城市大數(shù)據(jù)的能力。可以是京東金融自己的云,可以是微軟的云,也可以是騰訊的云,華為的云,都可以。我們會讓云廠家快速擁有對城市大數(shù)據(jù)的分析、挖掘和管理能力,并且能夠快速形成閉環(huán),做一些實時動態(tài)的分析挖掘業(yè)務(wù)。這是我們的能力所在,也是我們的門檻。


能否舉例具體說明一下城市計算之「復(fù)雜」?


我講個具體的例子,比如說交通信號燈的控制問題,就比其他任務(wù),比如 AlphaGo 要難太多。AlphaGo 是一個 19×19 的網(wǎng)格,每個格子上的狀態(tài)只有黑棋、白棋和沒棋三種,狀態(tài)空間就這么大。


但是和 19×19 個格子相比,整個北京的紅綠燈路口數(shù)量有幾萬,而且每個路口的狀態(tài)和動作也會更多,比如這個道路的交通流量速度是 40 公里每小時,另一個是 45,還有 30 的;信號燈的控制的變化可能是紅燈 30 秒,綠燈 20 秒,都是連續(xù)變量,這個空間狀態(tài)就比剛才的三個狀態(tài)要大多了。


而且很多數(shù)據(jù)是缺失的??赡苓@一時刻剛好這條路上沒有人,或者沒有車經(jīng)過,或者沒有埋傳感器,那我們就拿不到這條路的數(shù)據(jù),拿到的是一個不完整的觀察。


另外,還有道路是一個開放系統(tǒng),在圍棋里面,我說一句話,在旁邊走兩步路,不會影響圍棋的結(jié)果。但是在道路上,有一個人過馬路,哪怕一條狗穿過馬路,都會改變道路的狀態(tài)。


所以城市計算問題狀態(tài)空間大、動作空間也大、還是一個開放系統(tǒng),那問題解決起來肯定比 AlphaGo 難多了。


我再舉個例子,城市人流量的預(yù)測,我們把城市分成很多個網(wǎng)格,要預(yù)測每一個網(wǎng)格里面,未來會有多少人進和出。


一個網(wǎng)格中的人流量既跟它自身前一個小時有多少人進和出有關(guān)系,也跟他周邊那些鄰居格子有多少人進和出有關(guān)系,因為有人會從旁邊過來。還跟離格子很遠的地方,某個區(qū)域的人的進和出有關(guān)系。因為當(dāng)你這里有大事情發(fā)生的時候,會有很多人從很遠的地方,坐地鐵從地下鉆出來,這個時候你如果只是靠網(wǎng)格周邊的人員變化,就不能捕捉到大事情發(fā)生時的異常,就像一些地方發(fā)生的踩踏事件一樣。


如果你想對每一個格子都能準(zhǔn)確預(yù)測人流量,也就意味著你要把城市的所有其他格子的狀態(tài)都作為輸入,來預(yù)測這個變化。而且格子和格子之間是相互依賴的,你不能說我先做 A 格子再做 B 格子。因為 A 格子進入了多少來自 B 格子的人,也就意味著 B 格子出來了多少人到 A,這是一個相互的東西,所以要同時做。如果你把每個格子單獨拿出來做,那這個模型會相對簡單,可是你發(fā)現(xiàn)這樣做出來,總?cè)藬?shù)加到一起可能都不等于全城總?cè)藬?shù)。


要把這么多格子一起做起來的話,有一個傳統(tǒng)的方法,就是用 graphic model,把每個格子當(dāng)作一個節(jié)點,每個格子跟其他格子建立邊的關(guān)系,那這個復(fù)雜度就非常非常高了,所以以前的機器學(xué)習(xí)根本做不了,直到現(xiàn)在深度學(xué)習(xí)出來之后,才有解決方案。


除了格子本身的數(shù)據(jù)之外,還有天氣、事件等能夠影響人流量的數(shù)據(jù),都是要動態(tài)輸入的。這么多數(shù)據(jù),需要在秒級或者分鐘級得出結(jié)果。比如交通量預(yù)測,或者預(yù)警任務(wù),對時效性要求很高。這么多數(shù)據(jù)的處理,沒有特殊的方法的話,可能一個小時過去了,特征都沒提完。


現(xiàn)在我們看像人臉識別這樣的任務(wù),就是一張圖片和特征,是單一數(shù)據(jù)源的單一樣例,而城市計算是多個數(shù)據(jù)源的多個樣例,所以復(fù)雜度是不在同一個量級上的。


京東金融在計算資源上的投入一定很大。


我們有一些特殊的方法,如果沒有很好的方法的話,那就只能靠堆機器,必然是不可行的,對國家資源也是一種浪費。我們用特殊的方法,結(jié)合分布式技術(shù)和時空索引技術(shù),能夠用十分之一的機器實現(xiàn)十倍的效率。


說到踩踏事件,當(dāng)時你發(fā)微博說可以用城市計算解決這個問題,最終還發(fā)了一篇論文,但是受到了很大的爭議,說是在蹭熱點,你本人對這件事怎么看?


當(dāng)時我在微博上說,完全可以通過大數(shù)據(jù)和人工智能方法提前預(yù)測,加強管控,避免踩踏。有些人支持我,相信我一定能把這個問題解決掉。也有一撥人說,「這個東西根本就不需要你預(yù)測,誰都知道會有很多人來?!?/p>


但其實仔細想一想,很多人是多少人?50 萬人很多,100 萬人也很多??墒菓?yīng)對 100 萬人和 50 萬人的安全級別戒備是完全不一樣的。另外,就算你知道 100 萬人要來,那這 100 萬人是分成五個小時均勻來,還是說在某兩個小時峰值到達?這兩種情況所采取的安全措施也是完全不一樣的。所以只能大概知道有很多人要來,但不知道會有多少人、具體什么時候來。這個時候就需要用技術(shù)的方法來解決。


現(xiàn)在,我們可以預(yù)測各地區(qū)的人流進和出,能夠提前幾個小時告訴城市主管部門,這邊可能會有問題,你可以加強管控,提前預(yù)防,比如通過媒體通知疏散人流。這些事情一定是越早做越好,人家都來了,你再讓人家回去,這也不現(xiàn)實。


城市計算已經(jīng)在我們的實際生活中解決了哪問題?


很多,比如 2014 年我給環(huán)保部做的霧霾預(yù)測,那段時間是北京空氣越來越糟糕的時候,我們定義了問題。


第一,怎么根據(jù)環(huán)保部門設(shè)立的這些有限的空氣質(zhì)量監(jiān)測站點,把那些沒有監(jiān)站的地方的空氣質(zhì)量給估計出來。


城市空氣是不均勻的,空氣質(zhì)量會受很多復(fù)雜因素的影響,包括周邊交通流量,周邊是否有廠礦,擴散條件怎么樣,是公園綠地還是建筑群等等。這些東西都不是線性的,不是均勻變化的,甚至每個小時差異都特別大。


環(huán)保部門只設(shè)立了有限個監(jiān)測點。為什么不多建?因為站點很貴,一個國產(chǎn)的站點大概需要 100 萬人民幣,進口的要 200 萬人民幣的樣子。而且還要維護,站點的占地面積還蠻大的,它不是一個小盒子就可以做的,一定是要在一個大的地方部署一個很大的設(shè)備才能做這件事情。如果真的在北京每一平方公里都放這樣一個設(shè)備的話,大概需要 3000 多個站點,根本沒法維護,所以只能設(shè)立有限的站點。


站點有限,空氣質(zhì)量又不均勻,那怎么辦?只能用人工智能和大數(shù)據(jù)的方法,結(jié)合交通氣象以及地理信息的變化來學(xué)習(xí)。這就是一個非常典型的半監(jiān)督學(xué)習(xí)的案例,只用有限的樣本,來推斷所有地區(qū)的空氣質(zhì)量。


這是第一步,然后第二步還要預(yù)測,剛剛是搞清楚現(xiàn)狀,現(xiàn)在是預(yù)測未來??諝赓|(zhì)量會受天氣的影響,受地區(qū)綠化的影響,受人類地面活動排放的影響,所以看天、看地、還要看人。


另外,我們拿到的天氣預(yù)報的數(shù)據(jù)都是不準(zhǔn)確的,現(xiàn)在天氣預(yù)報的準(zhǔn)確率只有 40% 左右,你的模型要在很多這種不確定的數(shù)據(jù)上訓(xùn)練,大數(shù)據(jù)和人工智能就有這種能力,把很多不確定的數(shù)據(jù)加在一起,形成確定的數(shù)據(jù);把很多稀疏的數(shù)據(jù)疊在一起,得到一個明確答案。


這篇論文我們發(fā)表在 KDD 2013 上,是領(lǐng)域內(nèi)第一篇用大數(shù)據(jù)做空氣質(zhì)量分析和預(yù)測的文章,引用率特別高。同時技術(shù)也已經(jīng)落地,已經(jīng)覆蓋到中國 300 多個城市。


像今年過年某些地區(qū)游客滯留這件事情,能夠怎樣通過城市計算進行解決?


游客滯留是一大類問題,大家在某段時間大家扎堆過去,但是景區(qū)旅客接待能力不足,或者說運力不足導(dǎo)致游客滯留在某地,不能及時返回。這個問題是我一直想做的問題,我覺得很有意思。


國家旅游局希望能夠預(yù)測未來一段時間,比如黃金周,各個景點的人數(shù)。你如果只是把某個地區(qū)單獨拎出來,根據(jù)往年數(shù)據(jù)來看,預(yù)測一定不準(zhǔn)。為什么?因為這是一個相關(guān)性問題??赡芮耙荒耆ミ@個地方的人很多,第二年就沒人去了??赡芡蝗荒硞€景區(qū)火了,帶動了鄰近的景區(qū)。還有一些景色相似的地區(qū),比如一個地區(qū)出現(xiàn)問題了,大家都不去了,導(dǎo)致去另一個相似地區(qū)的人突然變多了?;蛘叱鰢阋肆?,出國游的人變多了,國內(nèi)游的人就變少了。原因有很多,不能單獨看,要多維度聯(lián)動一起看。這些維度有些是關(guān)聯(lián)存在的關(guān)系,有些是增強關(guān)系,有些是互相的排斥關(guān)系,都要搞清楚。


一個厲害的人大概同時能把十個項目撐起來,而一個平庸的團隊可能鋪一百個人下去,也討論不出來一個結(jié)果。


目前城市計算所面臨的最主要的挑戰(zhàn)是什么?


缺數(shù)據(jù)科學(xué)家。很多人覺得自己已經(jīng)將 AI 掌握得很成熟,算法研究的很好,但這不代表他能夠解決行業(yè)問題。要解決行業(yè)問題,還需要對行業(yè)本身的了解。


舉個例子,比如說空氣質(zhì)量分析和預(yù)測工作,你必須知道是什么因素導(dǎo)致了空氣污染,這樣才能想到用什么樣的數(shù)據(jù)來分析和預(yù)測。當(dāng)反映某個因素的數(shù)據(jù)不存在的時候,你要想是不是能夠有別的數(shù)據(jù)來替代。還有這個行業(yè)里面的傳統(tǒng)方法是什么樣子?有什么樣好的思想可以借鑒?有什么地方是不行的?為什么不行?我們要怎樣做才能讓它行?你的方法比原來的方法好在哪里?這些問題都要搞得很清楚。


否則即便你做出一個東西,看起來模型結(jié)果比較好,行業(yè)的人不見得會認(rèn)可你。因為你講不清楚,你沒有跟別人溝通的語言。業(yè)務(wù)場景是在別人那,你最終要落到業(yè)務(wù)場景里去。


比如我接到過的城市需求是發(fā)展大數(shù)據(jù)產(chǎn)業(yè)。你要自己找到問題,比如充電樁選址是個問題,你要提出方法,用什么數(shù)據(jù),怎樣實現(xiàn)。在這方面北京和上海會好一些,但是如果我們要求全國各城市都具備計算機問題的分析能力,那要求太高了。政府是城市管理部門,不是科研部門。


所以現(xiàn)在我不擔(dān)心硬件不發(fā)達,或者算法上不去,或者算法本身研究不出來,這都不是問題,我相信總會有突破。怎樣把這些 AI 大數(shù)據(jù)人工智能算法跟行業(yè)的問題對接,是需要一大批數(shù)據(jù)科學(xué)家來支撐的。


合格的數(shù)據(jù)科學(xué)家需要有怎樣的特質(zhì)?


既要深度地了解行業(yè),也需要懂?dāng)?shù)據(jù)背后的知識,而不是數(shù)據(jù)表面的格式。要懂各種各樣的模型,不單單要具備底層的機器學(xué)習(xí)能力,還要有可視化、數(shù)據(jù)管理能力。他要懂得云平臺怎么用,因為最后產(chǎn)品會落到云平臺上來,做一個好的數(shù)據(jù)科學(xué)家是站在云平臺上看問題,想數(shù)據(jù)關(guān)聯(lián)模型,把模型有機地組合到一起,部署到我們的云平臺上。


我覺得以后我們國家要加大力培養(yǎng)數(shù)據(jù)科學(xué)家,而不是簡單地培養(yǎng) AI 人才。在學(xué)校里上幾門課,學(xué)學(xué)算法,學(xué)學(xué)工具,這些都不難。難的是學(xué)了之后要到各行各業(yè)里面去工作,解決行業(yè)問題,這中間有很高的門檻。這種經(jīng)驗的積累不是在學(xué)校里能夠?qū)W得到的,需要靠數(shù)據(jù)和項目去喂養(yǎng),在實戰(zhàn)中去修煉。


所以我很鼓勵高校的一些學(xué)生,特別是高年級的研究生們,能夠多出來接觸實際的企業(yè),看到實際的問題,用真實的數(shù)據(jù)做一些東西。除了理論研究之外,我們也可以看看這個研究怎么落地應(yīng)用,并從中得到一些反饋,同時你也會發(fā)現(xiàn)新的問題,甚至可能是核心的研究問題,是以前沒想到的問題。所以我覺得這是一個產(chǎn)學(xué)研一體化的東西。


我們需要多長時間才能擁有足夠多的數(shù)據(jù)科學(xué)家?


按照以往經(jīng)驗的話,7 到 10 年培養(yǎng)這樣的一個人。五年的博士加上兩年的工作經(jīng)驗,如果博士全在學(xué)校里面,那可能還不行。


我發(fā)現(xiàn)在我?guī)У膶W(xué)生里面,有很多人有這樣的問題。你給他培訓(xùn)得很細致,讓他做了很多項目,但是他沒有環(huán)境轉(zhuǎn)換能力,換了就不懂。因為他沒有快速的學(xué)習(xí)能力、高度的抽象能力、以及舉一反三的能力。這可能跟悟性是有關(guān)的,還需要數(shù)據(jù)敏感性。有的人一看到問題,馬上就能想到什么數(shù)據(jù)可以反映這個問題,但很多人就很難建立這個思路。


比如他看到出租車數(shù)據(jù)就想到出租車,想不到可以變成車流、人流,還能反映區(qū)域的經(jīng)濟、交通環(huán)境的變化。這個思路穿過來之后,就能用領(lǐng)域 A 的數(shù)據(jù)解決領(lǐng)域 B 的問題。


這個真的是看悟性,有時候你教都教不來。我從這么多的學(xué)生中觀察,成才率很低。培養(yǎng)數(shù)據(jù)分析師很容易,可能數(shù)據(jù)分析師國家有幾千幾萬名,但是數(shù)據(jù)科學(xué)家真的非常少。所以說中國一定要加大力度培養(yǎng)這種人才,才能在世界上立于不敗之地。


在這方面我們的團隊還好,因為我們團隊已經(jīng)磨合了很多年了,在這個方向我們也研究了很久,經(jīng)驗積累比較多。然后我自己學(xué)生跟我讀書也讀了四五年的博士,所以相對來說他們是有一些經(jīng)驗的。


一家公司想做城市計算的話,需要有怎樣的素質(zhì)?


我覺得需要有數(shù)據(jù)和團隊。首先,做城市計算需要有良好的數(shù)據(jù)基礎(chǔ)和數(shù)據(jù)資源。大家都以為政府?dāng)?shù)據(jù)特別多,但其實不是這樣的,很多時候政府也需要行業(yè)數(shù)據(jù)來支撐他們的決策,共同解決問題。


還有一個就是團隊。其實我覺得人才是最關(guān)鍵的,現(xiàn)在都說 AI 大戰(zhàn)其實是人才大戰(zhàn)。但不是說 AI 比賽是千軍萬馬的比賽,不是說我有一百個人就比你十個人要厲害。很多時候能不能解決問題,往往靠一個人靈光一現(xiàn)。比如說問題卡在那,某一種數(shù)據(jù)缺失,怎么想都搞不定。這種時候往往是靠某一個人靈光一閃,發(fā)現(xiàn)另外一種數(shù)據(jù),通過怎樣的轉(zhuǎn)變,怎樣的使用就能解決問題了。當(dāng)幾個看上去沒用的數(shù)據(jù)組合在一起的時候,在一種特殊場景和模型下面,能夠發(fā)揮出一些意想不到的優(yōu)勢,這就是人才的作用。


一個厲害的人大概同時能把十個項目撐起來,而一個平庸的團隊可能鋪一百個人下去,也討論不出來一個結(jié)果。所以 AI 真的不是一個靠千軍萬馬過河的學(xué)科。京東在這方面已經(jīng)意識到了戰(zhàn)略儲備的重要性,也在花大力氣投入引進尖端人才。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。