《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 【ChatGPT專題】ChatGPT火爆,背后的核心邏輯到底是什么?

【ChatGPT專題】ChatGPT火爆,背后的核心邏輯到底是什么?

2023-02-15
來(lái)源:一起學(xué)嵌入式
關(guān)鍵詞: ChatGPT AIGC OpenAI

  2022年12月份的時(shí)候,ChatGPT還只是個(gè)被人各種撩的聊天工具。但進(jìn)入2023年后,已經(jīng)向著效率工具邁進(jìn)了。

  微軟宣布正和ChatGPT開(kāi)發(fā)團(tuán)隊(duì)OpenAI進(jìn)行洽談,投資百億美元,并計(jì)劃把這個(gè)工具整合到云服務(wù)、搜索引擎、甚至office中。海外高校、學(xué)術(shù)機(jī)構(gòu),也興起了關(guān)于用ChatGPT寫(xiě)論文是否合規(guī)的大討論;咨詢公司也開(kāi)始擔(dān)憂是否會(huì)被搶飯碗。

  毫無(wú)疑問(wèn),ChatGPT的應(yīng)用熱情,已經(jīng)被點(diǎn)燃;應(yīng)用場(chǎng)景也不斷拓展。但ChatGPT并不是一蹴而就,以更廣闊的的視野來(lái)看,這背后是AIGC“智慧涌現(xiàn)”的大浪潮。那么,AIGC的發(fā)展節(jié)點(diǎn)有哪些?企業(yè)競(jìng)爭(zhēng)靠什么?

  AIGC是如何一步步突破的?

  AI懂創(chuàng)作、會(huì)畫(huà)畫(huà),可以說(shuō)是人工智能的一個(gè)“跨越式”提升。雖然人工智能在生活中不斷普及,比如我們習(xí)慣了機(jī)器代替人去搬運(yùn)重物、制造精密的產(chǎn)品、完成復(fù)雜的計(jì)算等等。但是,如果人工智能更接近人,那就必須具備人類“創(chuàng)作”的能力。這就是AIGC的意義。

  AI能力的提升,并不是一蹴而就,而大部分則經(jīng)歷了“模型突破-大幅提升-規(guī)?;a(chǎn)-遇到障礙-再模型突破-大幅提升”的循環(huán)發(fā)展。而要實(shí)現(xiàn)落地、走進(jìn)人類生活,則必須具備“規(guī)?;a(chǎn)”的能力,在資源消耗、學(xué)習(xí)門(mén)檻等方面大幅降低到平民化。

  比如以AI畫(huà)畫(huà)為例,則經(jīng)歷了三個(gè)關(guān)鍵節(jié)點(diǎn):

  第一個(gè)節(jié)點(diǎn),早期突破:2014年,對(duì)抗生成網(wǎng)絡(luò)(GAN)誕生,真正“教會(huì)”AI自己畫(huà)畫(huà)。

  GAN包含兩個(gè)模型,一個(gè)是生成網(wǎng)絡(luò)G、一個(gè)是判別網(wǎng)絡(luò)D。G負(fù)責(zé)把接收到的隨機(jī)噪聲生成圖片,D則要判斷這張圖是G畫(huà)的、還是現(xiàn)實(shí)世界就存在的。G、D互相博弈,能力也不斷提升,而當(dāng)D不再能判斷出G生成的圖片時(shí),訓(xùn)練就達(dá)到了平衡。

  GAN的開(kāi)創(chuàng)性在于,精巧地設(shè)計(jì)了一種“自監(jiān)督學(xué)習(xí)”方式,跳出了以往監(jiān)督學(xué)習(xí)需要大量標(biāo)簽數(shù)據(jù)的應(yīng)用困境,可以廣泛應(yīng)用于圖像生成、風(fēng)格遷移、AI藝術(shù)和黑白老照片上色修復(fù)。

  第二個(gè)節(jié)點(diǎn),大幅提升:2020年,一篇關(guān)于擴(kuò)散模型(Diffusion Model)的學(xué)術(shù)論文,大幅提升AI的畫(huà)畫(huà)水平。

  擴(kuò)散模型的原理是“先增噪后降噪”。首先給現(xiàn)有的圖像逐步施加高斯噪聲,直到圖像被完全破壞,然后再根據(jù)給定的高斯噪聲,逆向逐步還原出原圖。當(dāng)模型訓(xùn)練完成后,輸入一個(gè)隨機(jī)的高斯噪聲,便能“無(wú)中生有”出一張圖像了。

  這樣的設(shè)計(jì)大大降低了模型訓(xùn)練難度,突破了GAN模型的局限,在逼真的基礎(chǔ)上兼具多樣性,也就能夠更快、更穩(wěn)定的生成圖片。

  第三個(gè)節(jié)點(diǎn),批量生產(chǎn):2022年夏天誕生的Stable Diffusion,讓高大上的學(xué)術(shù)理論變得“接地氣”。

  去年8月,Stability AI將擴(kuò)散過(guò)程放到更低維度的潛空間(Latent Diffusion),從而開(kāi)發(fā)出了Stable Diffusion模型。這個(gè)模型帶來(lái)的提升,在于資源消耗大幅降低,消費(fèi)級(jí)顯卡就可以驅(qū)動(dòng)的,可以操作也更為方便,普通人也可以體會(huì)到人工智能驚艷的創(chuàng)作能力。而且開(kāi)發(fā)團(tuán)隊(duì)還把所有代碼、模型和權(quán)重參數(shù)庫(kù)都進(jìn)行了開(kāi)源,踐行了Geek的共享精神、去中心化主義。

  門(mén)檻降低、效果提升,因此,大受歡迎。發(fā)布10天后,活躍數(shù)據(jù)達(dá)到了每天1700萬(wàn)張,如果都用A4紙打印出來(lái)疊一起,相當(dāng)于一座52層高的大樓。

  共享,也是Stability AI的另一特色。在開(kāi)源社區(qū)中,除了更小的內(nèi)存和更快的速度,Stable Diffusion收獲了更完善的指南與教程、共享提示詞、新UI,也依靠集體的智慧,走進(jìn)了Photoshop、Figma等經(jīng)典軟件,匯入創(chuàng)作者們的既有工作流中。可謂是,依靠群眾、回饋群眾。

  從技術(shù)實(shí)現(xiàn)突破、到技術(shù)提升、再到規(guī)模化降低門(mén)檻,AI創(chuàng)作能力也不斷提升。2022年10月,美國(guó)一名男子用AI繪畫(huà)工具M(jìn)idjourney,生成了一幅名為《太空歌劇院》的作品,并獲得了第一名。這引起了一波不小的爭(zhēng)論,也終于形成了一條新賽道。于是,2022年以AI繪畫(huà)為代表的各種生成式AI工具,如雨后春筍般瘋狂冒尖,比如盜夢(mèng)師、意間AI、6pen、novelAI等等。

  而在文本AI領(lǐng)域也是如此。如今大火的ChatGPT則是基于GPT3.5模型,已經(jīng)迭代了4次。而對(duì)話一次的平均成本為0.01-0.2美元,也就是六毛到一塊錢(qián)人民幣,成本依然需要不斷降低。但整體而言,無(wú)論畫(huà)畫(huà)、還是聊天,AI已經(jīng)體現(xiàn)出智慧涌現(xiàn)。

  如何成為浪潮寵兒?

  Stability AI的創(chuàng)始人Emad認(rèn)為,圖像才是殺手級(jí)應(yīng)用。

  圖像模型可以迅速創(chuàng)造,并引導(dǎo)人們迅速消費(fèi),同時(shí)又能以較低成本快速整合到不同領(lǐng)域,從而快速普及,掀起浪潮。而事實(shí)上,確實(shí)許多創(chuàng)業(yè)者涌入了這些領(lǐng)域。AIGC成為了幣圈之后的投資新焦點(diǎn)。在 GPT-3 發(fā)布的兩年內(nèi),風(fēng)投資本對(duì) AIGC 的投資增長(zhǎng)了四倍,在 2022 年更是達(dá)到了 21 億美元。

微信截圖_20230215160938.png

  公司增多,投資增多,但并不是每家企業(yè)都能活得很好。比如2022年底,僅創(chuàng)立4個(gè)月的AI繪畫(huà)公司StockAI就停止了運(yùn)營(yíng)。公司CEO表示,主要是因?yàn)樯虡I(yè)化模式不成熟,目前的付費(fèi)用戶群體無(wú)法覆蓋高昂的運(yùn)營(yíng)成本。雖然他也表明會(huì)在今年1月份推出全新的平臺(tái),但從透露的信息來(lái)看,新平臺(tái)已不會(huì)有需要大量算力的AI圖片生成功能了。

  那么,什么樣的企業(yè),才是這波浪潮的“寵兒”?

  首先,無(wú)疑是掌握核心前沿技術(shù)的行業(yè)引領(lǐng)者。全球TOP3的人工智能研究機(jī)構(gòu),都在各出奇招、爭(zhēng)奪AIGC主導(dǎo)地位。

  OpenAI是文字生成領(lǐng)域的領(lǐng)航員。不光吸引了“生成對(duì)抗網(wǎng)絡(luò)之父”Ian Goodfellow加盟,還早早獲得了微軟的10億美元投資。從GPT到GPT3.5,OpenAI不斷迭代,也不斷帶給行業(yè)驚喜。這一次的ChatGPT更加獲得了微軟的認(rèn)可。而通過(guò)開(kāi)放GPT-3受控API的模式,OpenAI也將賦能更多公司和創(chuàng)業(yè)者。

  DeepMind是通用型AI的探路人。2016年,AlphaGo擊敗人類圍棋的最高代表韓國(guó)棋手李世石,Go背后正是谷歌旗下的DeepMind。但DeepMind的目標(biāo)并不是下棋,而是通用型AI,比如能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的AlphaFold、能解決復(fù)雜數(shù)學(xué)計(jì)算的AlphaTensor等等。但這些AI始終面臨著一個(gè)瓶頸,即無(wú)法像人類一樣進(jìn)行“無(wú)中生有”的創(chuàng)作。

  這兩年,DeepMind終于向通用型AI又推近了一步。在對(duì)話機(jī)器人Sparrow、劇本創(chuàng)作機(jī)器人Dramatron等背后的語(yǔ)言大模型中找到靈感,構(gòu)建了會(huì)聊天、會(huì)干活、會(huì)玩游戲的Gato。

  Meta在加速AI的商業(yè)化落地。重組調(diào)整AI部門(mén),將其分布式地下放到各實(shí)際業(yè)務(wù)中,而FAIR被并入元宇宙核心部門(mén)Reality Labs Research,成為新場(chǎng)景探索者的一員。

  也許同行相輕,Meta首席人工智能科學(xué)家Yann LeCun對(duì)ChatGPT的評(píng)價(jià)并不高,他認(rèn)為從底層技術(shù)上看,ChatGPT并不是什么創(chuàng)新性、革命性的發(fā)明,除了谷歌和Meta,至少有六家初創(chuàng)公司擁有類似的技術(shù)。

  當(dāng)被問(wèn)及Meta的AI愿景時(shí),LeCun為FAIR畫(huà)下了“生成藝術(shù)”的大餅。他提出,F(xiàn)acebook上有1200萬(wàn)商鋪在投放廣告,其中多是沒(méi)有什么資源定制廣告的夫妻店,Meta將通過(guò)能夠自動(dòng)生成宣傳資料的AI幫助他們做更好的推廣。

  其次,另一類寵兒,則是押對(duì)應(yīng)用場(chǎng)景的企業(yè)們,在“繪畫(huà)”之外吸納了不少資本支持與人才投入。

  在所有內(nèi)容生成式AI中,輸出文字和音樂(lè)的已經(jīng)先一步找到了財(cái)富密碼。最早出現(xiàn)的AI生成文字在遍歷了寫(xiě)新聞稿、寫(xiě)詩(shī)、寫(xiě)小劇本等頗受關(guān)注的應(yīng)用方式后,終于在營(yíng)銷(xiāo)場(chǎng)景找到了能夠穩(wěn)定變現(xiàn)的商業(yè)模式,成為寫(xiě)作輔助的效率工具,幫助從業(yè)者寫(xiě)郵件、文案、甚至策劃。專注于音樂(lè)的LifeScore,則讓人工智能學(xué)會(huì)了即時(shí)編曲,按照?qǐng)鼍啊㈤L(zhǎng)度的需要,組織藝術(shù)家同事人工創(chuàng)作、演奏的音樂(lè)素材,在人類的創(chuàng)作流程中找到了自己的位置。

  能夠互動(dòng)的聊天機(jī)器人,則在客服和游戲這兩個(gè)相去甚遠(yuǎn)的行業(yè)分別“打工”。區(qū)別于當(dāng)下只會(huì)提供預(yù)設(shè)問(wèn)題解答,有時(shí)還會(huì)答非所問(wèn)的“智能客服”,真正的AI需要結(jié)合用戶的行為和上下文來(lái)理解人類的真正意圖。在游戲領(lǐng)域,AI則被用來(lái)協(xié)助人類,高效地創(chuàng)造內(nèi)容豐富、體驗(yàn)良好的游戲內(nèi)容,從而延長(zhǎng)用戶的游戲時(shí)間。

  顯然,寵兒是少的。而經(jīng)歷了過(guò)去一年多“科技股大回落”后,投資者們也謹(jǐn)慎一些了,當(dāng)下的AIGC雖然很好,但等大模型出來(lái)也許更香。

  大模型,也許是企業(yè)比拼的護(hù)城河

  模型是人工智能的靈魂,本質(zhì)上它是一套計(jì)算公式和數(shù)學(xué)模型?!皡?shù)”可以看做是模型里的一個(gè)個(gè)公式,這意味著,參數(shù)量越大,模型越復(fù)雜,做出來(lái)的預(yù)測(cè)就越準(zhǔn)確。

  小模型就像“偏科的機(jī)器”,只學(xué)習(xí)針對(duì)特定應(yīng)用場(chǎng)景的有限數(shù)據(jù),“舉一反三”能力不足,一些智能產(chǎn)品被用戶調(diào)侃為“人工智障”的情況時(shí)有發(fā)生。

  大模型就是參數(shù)量極大的模型,目前業(yè)界主流的AIGC模型都是千億級(jí)、萬(wàn)億級(jí)參數(shù)量的水平。通過(guò)學(xué)習(xí)各行各業(yè)各類數(shù)據(jù),除了能給出相較于小模型更準(zhǔn)確的預(yù)測(cè)結(jié)果之外,它也展現(xiàn)出了驚人的泛化能力、遷移能力,產(chǎn)出內(nèi)容質(zhì)量更高、更智能,這也是當(dāng)前AIGC工具讓人眼前一亮的原因。

  而大模型的快速發(fā)展,對(duì)行業(yè)發(fā)展起到了明顯的推動(dòng)作用。例如ChatGPT是基于GPT-3模型進(jìn)行優(yōu)化所產(chǎn)生的,引領(lǐng)AI繪畫(huà)發(fā)展的DALL·E 2也離不開(kāi)GPT-3的貢獻(xiàn)。類似的還有Deepmind的Chinchilla、百度的文心大模型等等。

  大模型,很大概率是行業(yè)淘汰與否的判斷要素。

  首先,訓(xùn)練數(shù)據(jù)量大,OpenAI為了讓GPT-3的表現(xiàn)更接近人類,用了45TB的數(shù)據(jù)量、近 1 萬(wàn)億個(gè)單詞來(lái)訓(xùn)練它,大概是1351萬(wàn)本牛津詞典。

微信截圖_20230215161104.png

  這就帶來(lái)了兩個(gè)問(wèn)題:巨大的算力需求與資金消耗。訓(xùn)練和運(yùn)行模型都需要龐大的算力,有研究估測(cè),訓(xùn)練 1750 億參數(shù)語(yǔ)言大模型 GPT-3,需要有上萬(wàn)個(gè) CPU/GPU 24 小時(shí)不間輸入數(shù)據(jù),所需能耗相當(dāng)于開(kāi)車(chē)往返地球和月球,且一次運(yùn)算就要花費(fèi)450萬(wàn)美元。

  國(guó)內(nèi)也不例外。目前國(guó)內(nèi)自研的大模型包括百度的文心大模型、阿里的M6大模型、騰訊的混元大模型,針對(duì)中文語(yǔ)境,國(guó)內(nèi)廠商的表現(xiàn)要比國(guó)外大廠要好得多。而且國(guó)內(nèi)的大模型發(fā)展速度也很驚人。

  采用稀疏MoE結(jié)構(gòu)的M6大模型,2021年3月僅1000億參數(shù),3個(gè)月后就達(dá)到了萬(wàn)億級(jí),又過(guò)了五個(gè)月模型參數(shù)達(dá)到了十萬(wàn)億級(jí),成為全球最大的AI預(yù)訓(xùn)練模型?;煸P鸵彩侨f(wàn)億級(jí)別,成本大幅降低,最快用256張卡,1天內(nèi)就能訓(xùn)練完成。而采用稠密結(jié)構(gòu)(可以粗糙理解是和稀疏相比,密度更大)的文心大模型,2021年,參數(shù)規(guī)模達(dá)到2600億。2022年,百度又先后發(fā)布了數(shù)十個(gè)大模型,其中有11個(gè)行業(yè)大模型。

  這樣高的研發(fā)門(mén)檻,注定目前主流的大模型多由大企業(yè)、或是背靠大企業(yè)的研究機(jī)構(gòu)掌握,中小企業(yè)只能望而卻步。因此,大模型,也就成為企業(yè)的“護(hù)城河”。

  但進(jìn)行大模型的研發(fā)只是“成功第一步”,還有三個(gè)維度的比拼,也非常重要。

  一是數(shù)據(jù)資源。有研究表明,到2026年就沒(méi)有更多高質(zhì)量的數(shù)據(jù)可以訓(xùn)練AI了。此外,基于現(xiàn)實(shí)生活中已有的數(shù)據(jù)來(lái)訓(xùn)練模型只能解決一些已知問(wèn)題,對(duì)于一些我們還沒(méi)有發(fā)現(xiàn)的、潛在的、未知的問(wèn)題,現(xiàn)在的模型未必能解決。因此有一些研究人員提出了合成數(shù)據(jù)的概念,即通過(guò)計(jì)算機(jī)程序人工合成的數(shù)據(jù),一方面補(bǔ)充高質(zhì)量的訓(xùn)練數(shù)據(jù),另一方面填補(bǔ)一些極端或者邊緣的案例,增加模型的可靠性。

  二是綠色發(fā)展。雖然模型越大效果越好,但無(wú)限“大”下去并不經(jīng)濟(jì),對(duì)自然資源消耗、數(shù)據(jù)資源都帶來(lái)巨大壓力。而過(guò)高的資源消耗,也不利于平民化普及。

  三是應(yīng)用場(chǎng)景。商業(yè)和純理論研究不同,不能拿著技術(shù)的錘子,瞎找釘子,而是要結(jié)合應(yīng)用來(lái)發(fā)展技術(shù)。而國(guó)內(nèi)廠商要想拿出Stable Diffusion、ChatGPT這樣的殺手級(jí)應(yīng)用,還需要更多的思考和努力:

  跳出“跑分”怪圈,找到應(yīng)用場(chǎng)景,進(jìn)行模型“瘦身”,甚至,將模型開(kāi)源、形成生態(tài),利用群眾的智慧、為群眾服務(wù)。

  尾聲

  隨著微軟對(duì)ChatGPT的關(guān)注,產(chǎn)業(yè)、投資圈都熱了起來(lái),美股BuzzFeed因?yàn)橐捎肅hatGPT技術(shù)就實(shí)現(xiàn)了兩天漲三倍的壯舉;H股、A股也迎風(fēng)而動(dòng),不少上市公司也表態(tài)具備技術(shù)積累。

  躁動(dòng)當(dāng)然是好事兒,科技創(chuàng)新,就是要令人心潮澎湃。我國(guó)廣闊的產(chǎn)業(yè),是應(yīng)用開(kāi)花的土壤。但與此同時(shí),國(guó)內(nèi)的AIGC也存在著隱憂,比如高算力的芯片,如何造出來(lái)?

  另一方面,科技創(chuàng)新,也要牢記Gartner曲線揭示的規(guī)律:萌發(fā)期→泡沫期→泡沫破裂期→穩(wěn)步發(fā)展期→穩(wěn)定產(chǎn)出期。只有躁動(dòng),沒(méi)有篤定、沒(méi)有低谷時(shí)的忍耐,也絕不可能成功的。

  適度的泡沫,成為驅(qū)動(dòng)力;過(guò)度的泡沫,也許會(huì)劣幣驅(qū)逐良幣。但至少目前,我們和海外相比,幾乎在同一起跑線,值得充滿熱情的期待。

  敬請(qǐng)關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會(huì)<<

微信圖片_20230210170337.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。