岛国搬运www久久,91av国产在线

阿里百度騰訊三大云廠商搶食開源Llama 3算力

日期： 2024-04-23

來源：第一財經(jīng)

關(guān)鍵詞： Llama3 算力阿里云百度云騰訊云

Meta發(fā)布Llama 3系列兩個開源大模型之后，百度、阿里、騰訊等國內(nèi)云廠商迅速搶食Llama 3的算力部署需求。

今日，阿里云宣布全方位支持Llama 3系列模型的訓(xùn)練與推理。阿里云百煉大模型服務(wù)平臺推出針對 Llama 3系列的限時免費訓(xùn)練、部署、推理服務(wù)。騰訊云也宣布騰訊云TI平臺成為國內(nèi)首批支持Llama 3全系列模型的平臺之一。

而在4月19日，百度智能云千帆大模型平臺已宣布成為國內(nèi)首家推出針對Llama 3全系列版本訓(xùn)練推理方案的云廠商。亞馬遜云同日宣布這兩款模型已在Amazon SageMaker JumpStart中提供。

多名科技界人士此前對Llama 3系列評價頗高，認為后續(xù)可能開源的Llama 3超4000億參數(shù)版本有望改變大模型生態(tài)，更有從業(yè)者指出，開源的Llama 3有如安卓，一夜之間打掉所有閉源手機操作系統(tǒng)。

隨著開源潮流繼續(xù)，云廠商也不再僅依托與閉源大模型廠商綁定，而走向了搶食開源大模型算力需求。

Llama 3性能幾何？

Llama 3已開源版本的基準測試數(shù)據(jù)亮眼。據(jù)Meta介紹，指令微調(diào)的Llama 3 8B在五項基準上得分超Gemma 7B-1t和Mistral 7B Instruct，Llama 3 70B三項基準超過Gemini Pro 1.5和Claude 3 Sonnet。

這兩個開源模型發(fā)布后，近日陸續(xù)還有業(yè)界人士發(fā)表對該模型的看法。360創(chuàng)始人、董事長周鴻祎認為，這兩個開源模型性能很強，應(yīng)該遠遠超過GPT-3.5，Llama問世再次驗證了其對開源的信心。

國內(nèi)則關(guān)注到Llama 3的中文能力和長文本弱點。記者在一個大模型業(yè)內(nèi)人士討論群中看到，不少大模型開發(fā)者詬病Llama 3的中文表現(xiàn)，有大模型開發(fā)者實測發(fā)現(xiàn)其中文能力不如GPT-3.5，稱后續(xù)使用可以等第三方微調(diào)的中文Llama 3出來。不過有業(yè)內(nèi)人士分析，Llama 3將中文能力弱化了，這不是很大的問題，好的中文模型不一定需要很大量中文數(shù)據(jù)。

Llama 3上下文窗口僅8k，落后于業(yè)內(nèi)平均水平。周鴻祎表示，360的7B（70億）參數(shù)大模型可輸入長文本360k，已開源了長文本訓(xùn)練方法，可將這個方法用在Llama 3 8B訓(xùn)練，彌補該模型短板。

Llama 3開源引發(fā)開閉源路線之爭討論后，Meta CEO扎克伯格近日在一次訪談中則透露了Meta開源的想法和決心。他表示，即便一個模型研發(fā)成本達100億美元，只要對Meta有幫助，就會開源。扎克伯格提到開源的好處時舉了個例子：此前Meta開放計算項目開源，隨著全行業(yè)以Meta的設(shè)計為標(biāo)準，供應(yīng)鏈基本圍繞此建立，起量后為其節(jié)省了數(shù)十億美元。

“開源可以在很多方面提供幫助，一個是人們能否找到更便宜運行模型的方法。隨著時間推移，我們將在這些東西上花費幾千億美元或更多。所以如果能提高10%效率，就能節(jié)省數(shù)十億甚至數(shù)百億美元，它本身就可能值很多錢?！痹瞬癖硎?。

周鴻祎在論述Llama 3開源的意義時也提到相似觀點，他曾經(jīng)問過谷歌高管為什么把很多大數(shù)據(jù)項目貢獻給公眾，對方的回答令他驚訝。“他說軟件規(guī)模非常大，靠一家公司獨立維護成本非常高，開源之后就變成公共財產(chǎn)，形成我為人人、人人為我的文化?！爸茗櫟t表示。

云廠商搶食

Llama 3開源一石激起千層浪，阿里云、百度云、騰訊云也嗅到了機會，入場搶奪算力需求。

云廠商綁定大模型公司以鎖定算力乃至芯片需求，以往并不少見，且云廠商由此獲得的利潤可觀。OpenAI背后站著的投資方是微軟，ChatGPT就運行在微軟Azure上。有“OpenAI最強對手”之稱的Anthropic，身后則站著亞馬遜。

今年3月，亞馬遜完成對Anthropic的40億美元投資，雙方戰(zhàn)略合作協(xié)議內(nèi)容包括，Anthropic選擇亞馬遜云科技作為其關(guān)鍵任務(wù)工作負載的主要云服務(wù)提供商，Anthropic將利用Amazon Trainium和Amazon Inferemtia芯片來構(gòu)建、訓(xùn)練和部署未來模型。這兩款芯片是亞馬遜的自研芯片。今年3月，Anthropic發(fā)布最新大模型系列Claude 3，亞馬遜立馬宣布Amazon Bedrock可運行Claude 3系列，且是唯一一個為該系列模型提供托管服務(wù)的平臺。

參考微軟云服務(wù)綁定OpenAI后的收效，在截至2023年12月31日的2024財年第二季度，微軟智能云營收259億美元，剔除匯率影響后同比增長19%，AI為Azure云貢獻了6個百分點的增長，其中絕大部分增量來自O(shè)penAI在Azure云上的推理調(diào)用。亞馬遜云服務(wù)AWS則在2023財年第四季度獲得242.04億美元營收，同比增長13%。亞馬遜首席財務(wù)官布奧爾薩夫斯基表示，客戶對AWS生成式AI產(chǎn)品表現(xiàn)出很大興趣，雖然生成式AI服務(wù)體量相對較小，但公司相信其在未來幾年將帶來價值數(shù)百億美元的收入。

國內(nèi)云廠商中，不少也是大模型開發(fā)商，騰訊自研混元大模型，阿里自研通義千問，百度有文心大模型。此外，不同于一些大型互聯(lián)網(wǎng)服務(wù)廠商自建服務(wù)器集群的情況，一些大模型創(chuàng)業(yè)公司還無太多余力搭建服務(wù)器集群，而是使用云廠商計算資源。有云廠商相關(guān)負責(zé)人向記者描述，大模型訓(xùn)練所需GPU算力，要一千張卡、一萬張卡連通，這不是所有公司都能做到的，云廠商基于規(guī)模和效率優(yōu)勢天然更適合大模型場景。

除了自研大模型，云廠商自然不愿放過其他大模型的算力需求。百度旗下有面向企業(yè)客戶的大模型平臺文心千帆，支持第三方大模型能力導(dǎo)入，千帆ModelBuilder支持國內(nèi)外第三方主流模型，總數(shù)量達79個。此外，阿里云旗下有魔搭社區(qū)，騰訊云TI平臺則已接入Llama 2、Falcon、Dolly等開源模型。今年3月，阿里云魔搭發(fā)起一項開源計劃，支持國內(nèi)類Sora模型創(chuàng)新。

相比推理訓(xùn)練更具中心化特點的閉源模型，諸多云廠商都有機會拼搶算力分散的開源模型部署需求。而隨著Grok-1、Llama 3等相繼突破開源模型參數(shù)上限，潛在算力需求也在攀升。如果Llama 3 參數(shù)量超4000億版本可以獲得媲美GPT-4的性能，部署該模型的需求攀升，接入Llama 3的云廠商能吃到的算力紅利可能不低于微軟。

開源大模型廠商也在評估自身能否從云服務(wù)廠商相關(guān)收入中分成。

在談到是否考慮向云廠商授權(quán)模型，以賺取可觀收入時，扎克伯格表示：“希望有這樣的安排，但我不知道會有多大意義。我們希望，如果他們打算把我們構(gòu)建的東西轉(zhuǎn)賣并從中賺錢，那么他們應(yīng)該來和我們談?wù)?。如果你是微軟Azure或亞馬遜，打算轉(zhuǎn)售我們的模型，那么我們應(yīng)該有一些收入分成?！?/p>

扎克伯格提到，Llama 2基本已與所有主要云計算公司達成協(xié)議，可以作為托管服務(wù)在這些云上使用，而隨著發(fā)布的模型越來越大，這將成為一件大事?！叭绻N售我們的模型，我們就應(yīng)以某種方式分享其中的好處?！?/p>

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

阿里百度騰訊三大云廠商搶食開源Llama 3算力

日期： 2024-04-23

來源：第一財經(jīng)

相關(guān)內(nèi)容