很多公司都在進(jìn)行著人工智能轉(zhuǎn)型,但如果方向出現(xiàn)錯(cuò)誤,一家好公司也可能會(huì)跌入深淵。本文所述的公司中有一群非常聰明的人,他們可以寫出流行的熱文,帶來鼓舞人心的 TED 演講。但總的來說,他們沒有任何真實(shí)世界里的行業(yè)經(jīng)驗(yàn)。
這是一個(gè)真實(shí)的故事,發(fā)生在作者所在的公司,本文中的名稱、算法地址都已修改以保護(hù)利益相關(guān)的作者。
A 公司已經(jīng)成立幾十年了。它在行業(yè)里雖然不是領(lǐng)頭羊,但口碑還不錯(cuò)。自 20 世紀(jì) 90 年代起,A 公司的核心業(yè)務(wù)就一直是風(fēng)險(xiǎn)分析和投資組合優(yōu)化。他們有一個(gè)大約 30 個(gè)分析師組成的龐大團(tuán)隊(duì),這些分析師每天都在執(zhí)行這些任務(wù)。他們利用 ERP 大公司(如 SAP、天睿、甲骨文、JD Edwards)或主要技術(shù)咨詢公司(如德勤、埃森哲、普華永道、凱捷)為其定制的 ERP 方案與公司內(nèi)部的工程團(tuán)隊(duì)合作。
他們所使用的工具非常老派:運(yùn)行在 on-prem 服務(wù)器或主機(jī)上的經(jīng)典關(guān)系數(shù)據(jù)庫管理系統(tǒng)、用 COBOL 或 Fortran 編寫的代碼、像 ABAP 或 SPSS 這樣奇怪的東西……你大概明白了吧。但其模型和分析功能相當(dāng)復(fù)雜,而且和已發(fā)表的學(xué)術(shù)文獻(xiàn)相比,它驚人地先進(jìn)。最重要的是,它們非常適合公司的企業(yè)生態(tài)系統(tǒng),并且是基于多年深厚的領(lǐng)域知識(shí)磨煉出來的。
他們的技術(shù)團(tuán)隊(duì)有幾個(gè)工程師(從上述軟件和咨詢公司挖過來的)和產(chǎn)品經(jīng)理(使用該軟件的有經(jīng)驗(yàn)的分析師或經(jīng)理,或從競(jìng)爭(zhēng)對(duì)手那里挖過來的),這些人負(fù)責(zé)維護(hù)和運(yùn)行該軟件。他們的技術(shù)可能有點(diǎn)老派,但總的來說,他們非常了解公司和這個(gè)領(lǐng)域的整體架構(gòu)。
他們指導(dǎo)公司進(jìn)行了幾次大規(guī)模的升級(jí)和遷移,他們總是按時(shí)交付,沒有過多開銷。即使有幾次被絆倒了,他們也知道如何快速爬起來。在業(yè)內(nèi),他們以專業(yè)而著稱,并且與必須打交道的各路供應(yīng)商都擁有非常好的關(guān)系。他們成就了多個(gè) ERP 咨詢?nèi)瞬诺穆殬I(yè)生涯。
有趣的是,雖然他們每天都在處理統(tǒng)計(jì)建模和優(yōu)化算法,但沒有一個(gè)分析師、工程師或產(chǎn)品經(jīng)理自稱是數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)專家。這主要是一種文化現(xiàn)象:他們的專業(yè)知識(shí)早于 2010 年左右開始的數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)炒作,他們大部分是使用專有的企業(yè)工具而不是現(xiàn)在流行的開源工具。他們當(dāng)中只有少數(shù)人接受過正式的統(tǒng)計(jì)培訓(xùn),但大部分人來自工程或領(lǐng)域背景,然后在工作中不斷學(xué)習(xí)統(tǒng)計(jì)數(shù)據(jù)。暫時(shí)就把這個(gè)團(tuán)隊(duì)叫做「X 團(tuán)隊(duì)」吧。
大約在 2015 年左右,A 公司開始出現(xiàn)一些嚴(yán)重的焦慮問題:雖然作為這種規(guī)模的公司,它仍然做得很好。但由于整體的經(jīng)濟(jì)和人口發(fā)展趨勢(shì),它的客戶群正在縮小。一些所謂的攪局者提出了一種新的應(yīng)用和商業(yè)模式,開始嚴(yán)重侵蝕其收入。適當(dāng)?shù)匕矒峁蓶|和華爾街是必要的。該公司已經(jīng)有了一個(gè)不錯(cuò)的網(wǎng)站和一個(gè)相當(dāng)有吸引力的應(yīng)用,此外還要做什么呢?
領(lǐng)導(dǎo)層決定,應(yīng)該把人工智能和機(jī)器學(xué)習(xí)作為公司的核心業(yè)務(wù)。一個(gè)雄心勃勃的經(jīng)理,沒有理工科背景,僅在幾年前短暫地?cái)[弄過推薦系統(tǒng),被選中來組建數(shù)據(jù)科學(xué)團(tuán)隊(duì),暫且將該團(tuán)隊(duì)稱為「Y 團(tuán)隊(duì)」(他在當(dāng)?shù)刂萘⒋髮W(xué)獲得了歷史學(xué)士學(xué)位,并在公司的市場(chǎng)部工作了幾年)。
Y 團(tuán)隊(duì)主要由內(nèi)部雇員組成,這些人想成為數(shù)據(jù)科學(xué)家,并且在加入團(tuán)隊(duì)之前完成了 Coursera 認(rèn)證或 Galvanize boot camp。該團(tuán)隊(duì)還有幾個(gè)剛畢業(yè)但不喜歡學(xué)術(shù)界想投入業(yè)界的博士或碩士。這些人都很厲害,可以寫非常棒的 Medium 博客,發(fā)表鼓舞人心的 TED 演講,但總體來說,他們幾乎沒有什么行業(yè)經(jīng)驗(yàn)。
和現(xiàn)在流行的做法一樣,Y 團(tuán)隊(duì)直接向 CEO 和董事會(huì)報(bào)告數(shù)據(jù)科學(xué)相關(guān)工作,繞過首席信息官(CIO)和任何技術(shù)或業(yè)務(wù)副總裁(VP),因?yàn)?A 公司想在其即將召開的股東大會(huì)上宣稱這些是「數(shù)據(jù)驅(qū)動(dòng)」和「AI 驅(qū)動(dòng)」的。在三四年的時(shí)間里,Y 團(tuán)隊(duì)制作了一些 Python 和 R 腳本。他們的架構(gòu)經(jīng)驗(yàn)幾乎完全是將 Flask 連接到 S3 bucket 或 Redshift,其中更聰明一點(diǎn)的會(huì)學(xué)習(xí)如何將其模型插入 Tableau 或如何旋轉(zhuǎn) Kuberneties pod。
但是他們并不擔(dān)心:上述組建該團(tuán)隊(duì)的經(jīng)理現(xiàn)在是一名董事(同時(shí)還在讀在線碩士課程,以彌補(bǔ)資歷差距,增加其晉升為 VP 的機(jī)會(huì)。至少他現(xiàn)在知道 L1 正則化是什么了)。他同時(shí)也是一位玩辦公室政治和自我推銷的大師。不管 Y 團(tuán)隊(duì)提出的可行見解有多么少,或者他們部署到生產(chǎn)中的代碼是多么一丁點(diǎn)兒,這位經(jīng)理都支持他們,并且確保他們有充足的資金。事實(shí)上,他現(xiàn)在有一個(gè)宏偉的計(jì)劃——建立一個(gè)通用的機(jī)器學(xué)習(xí)平臺(tái)來解決公司所有的數(shù)據(jù)問題。
Y 團(tuán)隊(duì)有一些頭腦清醒的成員,在將他們所處行業(yè)的名稱與「數(shù)據(jù)科學(xué)」一詞聯(lián)合搜索之后,他們意識(shí)到貝葉斯模型是風(fēng)險(xiǎn)分析的主要解決方式,而且已經(jīng)有一個(gè)足夠完美的 R 語言工具包來處理這樣的問題了。他們?cè)?R-Bloggers.com 上研究了相關(guān)的教程。這個(gè)團(tuán)隊(duì)的成員之一甚至在 Kaggle 數(shù)據(jù)競(jìng)賽平臺(tái)上提交了貝葉斯分類器的內(nèi)核(在排行榜上排名 203 位),而且正準(zhǔn)備將自己新發(fā)現(xiàn)的知識(shí)用于解決現(xiàn)實(shí)世界的問題。
他們將自己的想法告訴主管,后者認(rèn)為已找到即將推出的機(jī)器學(xué)習(xí)平臺(tái)的完美應(yīng)用方向。他們立即開始了工作,完全沒有查看 A 公司是否有人已經(jīng)在做風(fēng)險(xiǎn)分析。由于他們的組織是獨(dú)立的,所以在接收資金之前他們完全無需與他人核對(duì)這些問題。盡管他們所做的僅僅是一個(gè)純貝葉斯分類器,「機(jī)器學(xué)習(xí)」字眼被加在了工程項(xiàng)目的名稱上,用來打動(dòng)董事會(huì)。
但是,隨著工作的進(jìn)展,緊張氣氛開始出現(xiàn)。Y 團(tuán)隊(duì)要求數(shù)據(jù)倉庫和 CA 分析團(tuán)隊(duì)創(chuàng)建管道,最終這個(gè)項(xiàng)目傳到了 X 團(tuán)隊(duì)的耳中。X 團(tuán)隊(duì)剛開始很興奮:表示愿意全心全意與 Y 團(tuán)隊(duì)合作,并且很想在運(yùn)作過程中添加機(jī)器學(xué)習(xí)這個(gè)助力。產(chǎn)品負(fù)責(zé)人和分析師也完全參與其中:他們看到了炒作整個(gè)數(shù)據(jù)科學(xué)的機(jī)會(huì)。但是由于傲慢的態(tài)度和不安全感,Y 團(tuán)隊(duì)拒絕與 X 團(tuán)隊(duì)合作或者與 X 團(tuán)隊(duì)分享自身的長(zhǎng)期目標(biāo),即使他們?nèi)チ斯酒渌块T,并就自身創(chuàng)建的新模型進(jìn)行 brown 包演示和教程展示。
X 團(tuán)隊(duì)生氣了:從他們對(duì) Y 團(tuán)隊(duì)的模型觀察來看,他們的方法天真得無可救藥,并且?guī)缀鯖]有擴(kuò)大生產(chǎn)規(guī)模和實(shí)現(xiàn)可持續(xù)性的可能,他們知道如何為 Y 團(tuán)隊(duì)提供幫助??紤]到 Y 團(tuán)隊(duì)對(duì) DevOps 的熟悉程度和持續(xù)交付(Y 團(tuán)隊(duì)耗費(fèi)幾個(gè)月的時(shí)間搞清楚了如何將一個(gè)簡(jiǎn)單的 R 腳本部署到產(chǎn)品中),將該模型部署到產(chǎn)品中需要花費(fèi)幾天時(shí)間。
盡管 X 團(tuán)隊(duì)自己的技術(shù)已經(jīng)過時(shí)了,但他們依然足夠聰明,能夠?qū)⑦@些技術(shù)嵌入到現(xiàn)有架構(gòu)中。此外,該模型的輸出并沒有考慮到公司如何使用它或者如何將它傳達(dá)至下游系統(tǒng),并且產(chǎn)品負(fù)責(zé)人可能也需要花費(fèi)大量精力使該模型更易于被利益相關(guān)者采納。但是,Y 團(tuán)隊(duì)并沒有聽取建議,他們的領(lǐng)導(dǎo)拒絕了任何溝通嘗試,更不用說合作了。
Y 團(tuán)隊(duì)釋放出來的信號(hào)是「我們是最前沿的 ML 團(tuán)隊(duì),你們的觀點(diǎn)都太過時(shí)了。我們不需要你們的建議」,并且他們似乎完全忽視領(lǐng)域知識(shí),或者更糟的是,他們認(rèn)為所有的領(lǐng)域知識(shí)只需要掌握一些商業(yè)指標(biāo)的定義就行了。
X 團(tuán)隊(duì)感到非常沮喪,并試圖將自己的擔(dān)憂傳達(dá)給領(lǐng)導(dǎo)層。但盡管 X 團(tuán)隊(duì)掌握著 A 公司業(yè)務(wù)流程中的重要一環(huán),但他們只是一個(gè) 50 人團(tuán)隊(duì),這在一個(gè)有 1000 名員工的科技與運(yùn)營(yíng)大公司里顯得微不足道。此外,他們與最高管理層之間也隔了好幾環(huán),因此管理層幾乎不可能聽到他們的建議。
與此同時(shí),這位勢(shì)不可擋的主管做了他最擅長(zhǎng)的事情:玩弄公司政治。雖然自己團(tuán)隊(duì)實(shí)際交付的東西很少,但他已經(jīng)說服了董事會(huì),所有的分析和優(yōu)化任務(wù)現(xiàn)在都應(yīng)該遷移到他尚未交付的 ML 平臺(tái)上。
由于多數(shù)領(lǐng)導(dǎo)現(xiàn)在已經(jīng)知道 Y 團(tuán)隊(duì)和 X 團(tuán)隊(duì)目標(biāo)存在重疊,他的游說詞不再是 Y 團(tuán)隊(duì)將要?jiǎng)?chuàng)造一個(gè)新理念,而是他們將要取代(或者現(xiàn)代化)基于 on-prem 工具的傳統(tǒng)統(tǒng)計(jì)和基于云的 ML 工具。盡管沒有學(xué)術(shù)文獻(xiàn)支持樸素貝葉斯比 X 團(tuán)隊(duì)所使用的計(jì)量經(jīng)濟(jì)方法更有效的觀點(diǎn),更不用說貝葉斯優(yōu)化(Bayesian Optimization)肯定優(yōu)于生產(chǎn)中運(yùn)行的 QP 求解器的古怪想法了。
X 團(tuán)隊(duì)不知道的是,原始貝葉斯風(fēng)險(xiǎn)分析項(xiàng)目現(xiàn)在已經(jīng)發(fā)展為一項(xiàng)耗資數(shù)百萬美元的重大改革計(jì)劃,其中包括最終取代該團(tuán)隊(duì)所支持的所有工具和功能以及必要的云遷移。CIO 和幾位 VP 現(xiàn)在都已上任,并且技術(shù)領(lǐng)導(dǎo)認(rèn)為事情已經(jīng)木已成舟。
由于 Y 團(tuán)隊(duì)沒有工程技能,因此一家外部供應(yīng)商——一家沒人聽說過的創(chuàng)業(yè)公司被簽約幫助構(gòu)建這個(gè)平臺(tái)。這個(gè)選擇是慎重的,因?yàn)橐笕魏我延械淖稍兓蜍浖咀鲞@件事的話,最終只會(huì)讓領(lǐng)導(dǎo)層得出 X 團(tuán)隊(duì)在轉(zhuǎn)型上要比 Y 團(tuán)隊(duì)做得好的結(jié)論。
相比之下,Y 團(tuán)隊(duì)沒有重要 ERP 部署經(jīng)驗(yàn),也沒有領(lǐng)域內(nèi)的知識(shí),但他們的任務(wù)卻是從根本上改變 A 公司核心業(yè)務(wù)的工作流程。他們的模型實(shí)際上要比 X 團(tuán)隊(duì)部署的模型差,對(duì)于真實(shí)的生產(chǎn)環(huán)境來說,他們的架構(gòu)過于簡(jiǎn)單。
具有諷刺意味的是,所有跡象表明,Y 團(tuán)隊(duì)使用貝葉斯方法獲得成功的概率接近于零。
最好的情況下這個(gè)項(xiàng)目最終會(huì)在消耗掉 5000 萬或更多美元的情況下被砍掉。一旦此產(chǎn)品惹惱了粉絲,一批高管就會(huì)離職,而很多員工也要被開。
而在最糟糕的情況下——鑒于風(fēng)險(xiǎn)分析和投資組合優(yōu)化對(duì)于 A 公司的收入舉足輕重,這一失敗最終可能會(huì)讓整個(gè)公司陷入困境。它可能不會(huì)破產(chǎn),但會(huì)失去大部分業(yè)務(wù)和員工。失敗的 ERP 應(yīng)用可以讓大公司陷入困境,看看 National Grid US、SuperValu 的衰敗和塔吉特?cái)∽呒幽么缶椭懒恕?/p>
可能有人會(huì)說,A 公司的問題主要在于企業(yè)運(yùn)轉(zhuǎn)和糟糕的運(yùn)營(yíng)思路,而不是數(shù)據(jù)科學(xué)與 AI。
但我并不同意,我認(rèn)為這次崩潰的核心原因確實(shí)來自于對(duì)數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)模型與 AI 未來的盲目崇信,同時(shí)也包括機(jī)器學(xué)習(xí)群體目前非常普遍的炒作和自我推銷文化。
現(xiàn)在,這個(gè)故事還沒有結(jié)束:我真誠地希望它能有一個(gè)好的結(jié)局。A 公司是一個(gè)好公司,其員工和客戶都應(yīng)該獲得更好的結(jié)局,但看看現(xiàn)在的情況,一切出現(xiàn)轉(zhuǎn)機(jī)的可能微乎其微,而這種失敗將嚴(yán)重地打擊該公司。