10月26日,在北京舉行的2021人工智能計算大會(AICC 2021)上,浪潮人工智能研究院正式發(fā)布“源1.0”開源開放計劃,這一全球最大中文巨量模型將以開放API、開放數(shù)據(jù)集、開源代碼等多種形式為業(yè)界提供開放合作,人工智能相關(guān)高校和科研機(jī)構(gòu)、產(chǎn)業(yè)伙伴及智能計算中心用戶可通過“源1.0”官網(wǎng)air.inspur.com提出申請,經(jīng)審核授權(quán)后即可基于“源1.0”模型探索算法創(chuàng)新以及開發(fā)各類智能化應(yīng)用。
浪潮宣布全球最大中文AI巨量模型"源1.0”開源開放計劃
“源1.0” 開源開放計劃將首先面向三類群體,一是高?;蚩蒲袡C(jī)構(gòu)的人工智能研究團(tuán)隊,二是元腦生態(tài)合作伙伴,三是智能計算中心。面向第一類群體,“源1.0”將主要支撐在語言智能前沿領(lǐng)域的算法創(chuàng)新和方向探索;面向第二類群體,“源1.0”將主要支撐元腦生態(tài)伙伴開發(fā)行業(yè)示范性應(yīng)用,如智能文本服務(wù)、語言翻譯服務(wù)、內(nèi)容生產(chǎn)服務(wù)等等,探索語言智能產(chǎn)業(yè)落地的“殺手級應(yīng)用”;面向第三類群體,“源1.0”將作為算法基礎(chǔ)設(shè)施,與智能計算中心算力基礎(chǔ)設(shè)施高效協(xié)同,支撐AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化發(fā)展。
“源1.0”開放開源計劃項目包含開放模型API,開放高質(zhì)量中文數(shù)據(jù)集,開源模型訓(xùn)練代碼、推理代碼和應(yīng)用代碼等。同時,浪潮人工智能研究院將和合作伙伴一起,共同開展針對國產(chǎn)AI芯片的“源1.0”模型移植開發(fā)工作。
為更好的支撐“源1.0”的開源開放計劃,浪潮人工智能研究院將加強(qiáng)模型API和平臺生態(tài)構(gòu)建,開發(fā)支持高并發(fā)、高速推理的多種API接口,以支持各類用戶對模型或功能的不同請求方式。同時,浪潮人工智能研究院也將大力運(yùn)營“源1.0”開源開放社區(qū),建立完善的開發(fā)反饋機(jī)制并加快模型迭代。
浪潮信息副總裁、AI&HPC產(chǎn)品線總經(jīng)理劉軍表示:“巨量模型應(yīng)該成為普惠性的科技進(jìn)步力量,讓行業(yè)用戶甚至是中小用戶也能使用巨量模型尋求深度創(chuàng)新,促進(jìn)業(yè)務(wù)可持續(xù)健康發(fā)展,這是浪潮開源開放‘源1.0’的初衷。我們希望與更多的產(chǎn)、學(xué)、研、用單位和開發(fā)者一起,從技術(shù)創(chuàng)新、場景融合、應(yīng)用開發(fā)等各個維度,共同促進(jìn)巨量模型的健康發(fā)展與產(chǎn)業(yè)落地?!?/p>
“源1.0”是全球最大規(guī)模的中文AI巨量模型,其參數(shù)規(guī)模高達(dá)2457億,訓(xùn)練采用的中文數(shù)據(jù)集達(dá)5000GB,相比GPT-3模型1750億參數(shù)量和570GB訓(xùn)練數(shù)據(jù)集,“源1.0”參數(shù)規(guī)模領(lǐng)先40%,訓(xùn)練數(shù)據(jù)集規(guī)模領(lǐng)先近10倍。 “源1.0”在語言智能方面表現(xiàn)優(yōu)異,獲得中文語言理解評測基準(zhǔn)CLUE榜單的零樣本學(xué)習(xí)和小樣本學(xué)習(xí)兩類總榜冠軍,測試結(jié)果顯示,人群能夠準(zhǔn)確分辨人與“源1.0”作品差別的成功率已低于50%。
在AICC 2021大會現(xiàn)場,參會人員與“源1.0”進(jìn)行實(shí)時互動,根據(jù)互動者給出的主題或者上聯(lián),“源1.0”會迅速作出詩歌或者對出下聯(lián)。眾多參會者在現(xiàn)場體驗“源1.0”的詩詞創(chuàng)作能力,體驗者表示,如果不是親身體驗,肯定看不出來詩歌是AI模型創(chuàng)作的,“重要的不僅能押好韻,而且更能寫出中文詩的美妙意境?!?/p>
AICC參會者排隊體驗“源1.0”巨量模型的文學(xué)創(chuàng)作能力
浪潮人工智能研究院透露已啟動新的巨量模型“源2.0”的開發(fā)工作,“源2.0”的開發(fā)會更注重協(xié)同創(chuàng)新,將與業(yè)內(nèi)合作伙伴聯(lián)合展開前沿探索。