隨著人工智能聊天機(jī)器人ChatGPT引發(fā)的熱議持續(xù)升溫,科技圈正迎來(lái)一輪新熱潮,不少用戶(hù)被ChatGPT足以“以假亂真”的擬人回答深深震撼,還有用戶(hù)使用過(guò)微軟基于ChatGPT支持的最新版本人工智能搜索引擎后驚呼“時(shí)代變了”。
在中文人工智能領(lǐng)域,百度、360、科大訊飛等人工智能公司紛紛發(fā)力,關(guān)于“中國(guó)版ChatGPT”最終將花落誰(shuí)家也不斷引起業(yè)內(nèi)熱議。
事實(shí)上,ChatGPT之所以能夠取得令人稱(chēng)奇的能力,核心在于其基于GPT-3.5架構(gòu)一路發(fā)展而來(lái),具備強(qiáng)大認(rèn)知智能的預(yù)訓(xùn)練模型,海量學(xué)習(xí)數(shù)據(jù)以及背靠微軟的強(qiáng)大算力。從這些維度來(lái)看,誰(shuí)將最先打造出“中國(guó)版ChatGPT”呢?
━━━━━
ChatGPT表現(xiàn)出色
考驗(yàn)國(guó)內(nèi)企業(yè)認(rèn)知智能領(lǐng)域技術(shù)積累
ChatGPT屬于認(rèn)知智能領(lǐng)域的應(yīng)用,從目前普遍的對(duì)話(huà)感受來(lái)看,ChatGPT的最大亮點(diǎn)就在于其意圖識(shí)別與語(yǔ)言理解能力甚至能夠達(dá)到“以假亂真”的水準(zhǔn),回答滴水不漏。要做到這一點(diǎn),強(qiáng)大的NLP(自然語(yǔ)言處理)技術(shù)是關(guān)鍵。
有觀(guān)點(diǎn)認(rèn)為,ChatGPT的核心技術(shù)是人工智能語(yǔ)言大模型,其關(guān)鍵是如何讓人工智能模型具備邏輯推理能力,以及如何讓人工智能學(xué)習(xí)全互聯(lián)網(wǎng)的知識(shí)。這些ChatGPT基本都做到了,因此在決策和知識(shí)環(huán)節(jié)有了很大的突破。
據(jù)了解,目前國(guó)內(nèi)有不少公司正在布局這一領(lǐng)域。2月7日,百度宣布將推出類(lèi)ChatGPT的技術(shù),并確定項(xiàng)目名為“文心一言”。三六零同日也在投資者互動(dòng)平臺(tái)上表示計(jì)劃盡快推出類(lèi)ChatGPT技術(shù)的原型版產(chǎn)品。
具體來(lái)看,對(duì)于決策和知識(shí)環(huán)節(jié),常識(shí)推理是重要一環(huán)。對(duì)于常識(shí)問(wèn)答系統(tǒng)來(lái)說(shuō),首先要能從千萬(wàn)量級(jí)的海量的知識(shí)庫(kù)中準(zhǔn)確檢索到相關(guān)的知識(shí),同時(shí)模型要能正確地將兩條知識(shí)進(jìn)行結(jié)合,建立兩條常識(shí)之間的關(guān)系,才能與問(wèn)題相匹配,最終得到正確選項(xiàng)。
2月8日,科大訊飛在投資者互動(dòng)平臺(tái)回應(yīng)稱(chēng),已面向認(rèn)知智能領(lǐng)域陸續(xù)開(kāi)源了6大類(lèi)、超過(guò)40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語(yǔ)言模型,在Github平臺(tái)的中文預(yù)訓(xùn)練模型的星標(biāo)數(shù)達(dá)13346,位列第一,是第二名的2倍,“公司已經(jīng)在當(dāng)前核心技術(shù)、產(chǎn)業(yè)場(chǎng)景、行業(yè)數(shù)據(jù)等深厚積累的基礎(chǔ)上,于2022年12月份進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,將于2023年5月6日進(jìn)行產(chǎn)品級(jí)發(fā)布?!苯刂聊壳埃@是唯一給出確切上市時(shí)間,并率先實(shí)現(xiàn)商業(yè)化的中國(guó)企業(yè)。
在該領(lǐng)域,科大訊飛主導(dǎo)承建了科技部首批20家標(biāo)桿全國(guó)重點(diǎn)實(shí)驗(yàn)室之一的認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室,多年來(lái)始終保持關(guān)鍵核心技術(shù)處于世界前沿水平。去年科大訊飛曾獲得包括OpenBookQA、常識(shí)推理挑戰(zhàn)賽QASC等在內(nèi)的總共獲得了12項(xiàng)認(rèn)知智能領(lǐng)域權(quán)威評(píng)測(cè)的第一。
━━━━━
如何“再打造”ChatGPT?
數(shù)據(jù)與算力是門(mén)檻
事實(shí)上,早在2022年12月,首個(gè)開(kāi)源的類(lèi)ChatGPT項(xiàng)目就已經(jīng)在GitHub上發(fā)布,該項(xiàng)目基于谷歌語(yǔ)言大模型PaLM架構(gòu),使用了同ChatGPT一模一樣的從人類(lèi)反饋中強(qiáng)化學(xué)習(xí)的方法,但卻出現(xiàn)了無(wú)人能夠運(yùn)行的窘境。
這是因?yàn)椋斯ぶ悄苣P鸵脒_(dá)到ChatGPT的級(jí)別,不僅要看算法,還需要足夠大的規(guī)模、海量的訓(xùn)練數(shù)據(jù)以及支撐運(yùn)行的算力。
中國(guó)電信首席專(zhuān)家、美國(guó)貝爾實(shí)驗(yàn)室院士畢奇在接受媒體采訪(fǎng)時(shí)表示,ChatGPT所使用的技術(shù)研發(fā)需要投入大規(guī)模資金,它基于一個(gè)巨大的語(yǔ)料庫(kù),千億參數(shù)的模型,還需要計(jì)算快且便宜的芯片等。
IDEA研究院(粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院)認(rèn)知計(jì)算與自然語(yǔ)言研究中心講席科學(xué)家張家興公開(kāi)表示,與以往的人工神經(jīng)網(wǎng)絡(luò)相比,預(yù)訓(xùn)練大模型最大的不同在于它規(guī)模足夠大,深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)多、連接多、參數(shù)多。
據(jù)了解,2012年前后的深度學(xué)習(xí)網(wǎng)絡(luò)只有幾百萬(wàn)參數(shù);2018年前后主流的預(yù)訓(xùn)練模型達(dá)到1億參數(shù);目前被證明非常有效的大規(guī)模預(yù)訓(xùn)練模型已有幾千億參數(shù),短短幾年時(shí)間提升了幾千倍。在對(duì)預(yù)訓(xùn)練模型各種不同的技術(shù)評(píng)測(cè)中,算法性能展示了一個(gè)規(guī)律:數(shù)據(jù)規(guī)模越大、預(yù)訓(xùn)練模型參數(shù)越多,算法輸出精度往往也越高,而在這背后,所要求的算力也更加恐怖。
ChatGPT由OpenAI研發(fā),該公司背靠微軟,可用算力包括28.5萬(wàn)個(gè)CPU核心、1萬(wàn)個(gè)英偉達(dá)V100 GPU。公開(kāi)資料顯示,ChatGPT的前身GPT-3參數(shù)量達(dá)到了驚人的1750億,訓(xùn)練一次所要消耗的成本就高達(dá)近8400萬(wàn)元人民幣。由此看來(lái),訓(xùn)練ChatGPT所需要的數(shù)據(jù)量、算力只會(huì)更多。
目前,國(guó)內(nèi)市場(chǎng)中百度、科大訊飛等常年深耕人工智能的企業(yè)各自均有各自的算力積累,如科大訊飛曾于去年12月在投資者互動(dòng)平臺(tái)上表示,其于2009年就開(kāi)始算力基礎(chǔ)設(shè)施建設(shè),目前已建成4城7中心深度學(xué)習(xí)計(jì)算平臺(tái),訊飛的算力不僅完全滿(mǎn)足AI算法模型訓(xùn)練,及面向開(kāi)放平臺(tái)數(shù)百萬(wàn)開(kāi)發(fā)者和其他行業(yè)伙伴提供相關(guān)AI服務(wù)的需求。
━━━━━
產(chǎn)品發(fā)布看什么?
行業(yè)應(yīng)用是關(guān)鍵
當(dāng)“硬件”足夠,ChatGPT能夠運(yùn)轉(zhuǎn)起來(lái)的重要因素還有一個(gè):讓其能夠不斷迭代、訓(xùn)練的海量數(shù)據(jù)。記者在體驗(yàn)多個(gè)國(guó)外人工智能語(yǔ)義模型時(shí)發(fā)現(xiàn),對(duì)方往往提供免費(fèi)的對(duì)話(huà)服務(wù),但需要用戶(hù)予以反饋,通過(guò)此種方式對(duì)模型進(jìn)行再訓(xùn)練,事實(shí)上,這天然符合行業(yè)應(yīng)用的場(chǎng)景。
三六零董秘在近期的電話(huà)會(huì)議中表示,ChatGPT走出了通用范式(AI)的從0到1,這會(huì)對(duì)搜索引擎的底層邏輯造成重大影響,所以大家看到現(xiàn)在首先發(fā)力或者主要發(fā)力于ChatGPT產(chǎn)品的是谷歌等搜索引擎巨頭,“在此之前,大家對(duì)于能用通用AI來(lái)做專(zhuān)業(yè)的事情心里是沒(méi)有根的,大家更多做垂直領(lǐng)域或者更專(zhuān)業(yè)的AI,用更專(zhuān)業(yè)的數(shù)據(jù)模型去訓(xùn)練人工智能,去做一些專(zhuān)業(yè)領(lǐng)域的事情?!?/p>
在行業(yè)應(yīng)用方面,他認(rèn)為360使用安全AI查找、掃描漏洞效果非常好,科大訊飛從很早開(kāi)始就做AI訓(xùn)練模型,在專(zhuān)有領(lǐng)域做到了相當(dāng)?shù)乃?,在醫(yī)療領(lǐng)域、教育領(lǐng)域有很好的市場(chǎng)地位。
事實(shí)上,深耕某一行業(yè)多年的公司具備更多數(shù)據(jù)積累優(yōu)勢(shì)。公開(kāi)資料顯示,目前科大訊飛智慧教育產(chǎn)品已在全國(guó)32個(gè)省級(jí)行政單位50000多所學(xué)校中應(yīng)用,服務(wù)超1.3億師生;在A(yíng)I學(xué)習(xí)機(jī)市場(chǎng),去年?duì)I收增長(zhǎng)53%,一直是份額最高的學(xué)習(xí)機(jī)產(chǎn)品;智醫(yī)助理產(chǎn)品覆蓋了全國(guó)380個(gè)區(qū)縣,5.3億次AI輔助診療。
記者梳理資料發(fā)現(xiàn),近期科大訊飛、云從科技等A股相關(guān)人工智能類(lèi)公司的投資者交流活動(dòng)吸引了多家投研機(jī)構(gòu)的關(guān)注,是否會(huì)布局類(lèi)ChatGPT產(chǎn)品是主要問(wèn)題之一。早在2月7日,科大訊飛就在深交所互動(dòng)易上回答關(guān)于“搶灘ChatGPT語(yǔ)言模型”的問(wèn)題時(shí)表示,已于2022年12月份進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,于2023年5月6日進(jìn)行產(chǎn)品級(jí)發(fā)布。該技術(shù)突破將在A(yíng)I學(xué)習(xí)機(jī)的中英文作文輔導(dǎo)、中英文口語(yǔ)學(xué)習(xí)等方面帶來(lái)顯著提升。科大訊飛在2023年會(huì)持續(xù)升級(jí)該系列技術(shù),并陸續(xù)應(yīng)用于公司在教育、醫(yī)療、汽車(chē)、消費(fèi)者等多個(gè)行業(yè)賽道的既有產(chǎn)品,持續(xù)提升核心技術(shù)效果和產(chǎn)品體驗(yàn)??梢?jiàn),從算力算法積累到搶先布局產(chǎn)品落地,科大訊飛在這場(chǎng)中國(guó)版的ChatGPT角逐中已優(yōu)先一步。
睿億投資研究總監(jiān)熊林認(rèn)為,包括ChatGPT在內(nèi)的人工智能產(chǎn)業(yè),由于具有替代人工的潛能,可以有效地幫助企業(yè)降本增效,因而長(zhǎng)期想象空間很大,但短期產(chǎn)品迭代及生態(tài)建立仍需時(shí)間,盈利兌現(xiàn)也需要時(shí)間,因此應(yīng)提防過(guò)度炒作帶來(lái)的風(fēng)險(xiǎn)。
事實(shí)上,在基礎(chǔ)算力、人工智能模型、數(shù)據(jù)量等維度,國(guó)內(nèi)的人工智能公司均有各自的優(yōu)勢(shì),在ChatGPT大獲成功的鼓勵(lì)下,中國(guó)版ChatGPT的到來(lái)似乎已并不遙遠(yuǎn)。有業(yè)界觀(guān)點(diǎn)稱(chēng),從大數(shù)據(jù)資源看,中國(guó)擁有全世界最大規(guī)模的網(wǎng)民數(shù)量,有豐富的應(yīng)用場(chǎng)景,在數(shù)據(jù)積累方面優(yōu)勢(shì)明顯。雖然目前全球還沒(méi)有能跟ChatGPT驚艷表現(xiàn)相抗衡的大模型,但是業(yè)界共識(shí)是差距在兩年左右,兩年的差距并非鴻溝,有趕超可能。屬于A(yíng)IGC的時(shí)代已然來(lái)臨,那些對(duì)AIGC探索的企業(yè)也將接踵而至。