ChatGPT的出圈掀起了一場(chǎng)人工智能模型和自然語(yǔ)言處理技術(shù)的大討論,圈內(nèi)圈外人士都對(duì)未來(lái)人工智能模型的重新塑造我們的生活有了更多的遐想。Yoav Goldberg在2023年1月借著這股ChatGPT的熱度發(fā)表了一篇文章,討論了他對(duì)以ChatGPT為代表的大規(guī)模語(yǔ)言模型的一些思考。他認(rèn)為目前的語(yǔ)言模型在加入了指令調(diào)整、代碼語(yǔ)言和人類(lèi)反饋的強(qiáng)化學(xué)習(xí)等內(nèi)容后,引入了外部知識(shí)和交互后,已經(jīng)超越了之前自然語(yǔ)言處理概念中像“猜字游戲”一樣的語(yǔ)言模型的范疇了。但是即便如此,他認(rèn)為當(dāng)前的大規(guī)模語(yǔ)言模型仍然有許多不足的地方,比如時(shí)間的概念、關(guān)聯(lián)不同文本的能力、了解“知識(shí)的知識(shí)”等。
關(guān)于大型語(yǔ)言模型的一些評(píng)論
Yoav Goldberg, 2023年1月
受眾: 我假設(shè)你聽(tīng)說(shuō)過(guò)ChatGPT,可能稍微玩了一下,并且對(duì)它印象深刻,而且你也聽(tīng)說(shuō)它是"一個(gè)大型語(yǔ)言模型",也許它"解決了自然語(yǔ)言理解"。接下來(lái)我將講講我對(duì)這些(和類(lèi)似的)模型的簡(jiǎn)短個(gè)人看法,以及我們?cè)谡Z(yǔ)言理解方面到哪一步了。
序言
在2014-2017年左右,就在NLP領(lǐng)域中神經(jīng)網(wǎng)絡(luò)方法興起之際,我開(kāi)過(guò)一個(gè)半學(xué)術(shù)半科普的講座,圍繞著這樣一個(gè)故事: 實(shí)現(xiàn)完美的語(yǔ)言建模等同于和人類(lèi)一樣聰明。大約在同一時(shí)間,我在一個(gè)學(xué)術(shù)小組中被問(wèn)到: "如果給你無(wú)限的計(jì)算能力并且不用擔(dān)心勞動(dòng)成本,你會(huì)做什么",我自信滿(mǎn)滿(mǎn)地回答 "我會(huì)訓(xùn)練一個(gè)真正巨大的語(yǔ)言模型,只是為了證明它不能解決一切!"。嗯,這個(gè)回答現(xiàn)在看是不是早就過(guò)時(shí)了!真的嗎?它如何與我同時(shí)講的“完美語(yǔ)言建模為智能的故事”同時(shí)存在?
完美的語(yǔ)言建模是AI-完備的
我的NLP入門(mén)科普講座( "教電腦理解語(yǔ)言" )圍繞著Claude Shannon的"猜字游戲"和語(yǔ)言建模的理念展開(kāi)。它從AI游戲開(kāi)始,然后很快轉(zhuǎn)向Shannon在1951年發(fā)明的"另一種游戲":"猜下一個(gè)字母"的游戲。游戲運(yùn)營(yíng)商選擇一些文本和文本中的一個(gè)剪切點(diǎn),隱藏結(jié)尾。玩家需要在最小數(shù)量的猜測(cè)中猜出第一個(gè)隱藏的字母。
我給出了一些這個(gè)游戲的例子,演示了在不同層面的語(yǔ)言理解中表現(xiàn)良好所需的各種語(yǔ)言知識(shí)(從形態(tài)學(xué)到各種句法、語(yǔ)義、語(yǔ)用和社會(huì)語(yǔ)言學(xué))。然后我說(shuō),人類(lèi)在沒(méi)有練習(xí)的情況下就很擅長(zhǎng)這個(gè)游戲,而讓他們變得更好是困難的,這就是為什么他們認(rèn)為這不是一個(gè)很好的游戲。
然后我說(shuō),相比人類(lèi),計(jì)算機(jī)在這個(gè)游戲上有點(diǎn)差。但是通過(guò)教它們玩這個(gè)游戲,我們獲得了很多語(yǔ)言的隱含知識(shí)。而且還有很長(zhǎng)的路要走,但是有了一些穩(wěn)定的進(jìn)展: 這就是機(jī)器翻譯今天的工作原理!
我還說(shuō),計(jì)算機(jī)仍然不是很好,這是可以理解的: 這個(gè)游戲是"AI-完備"的: 真正在"人類(lèi)水平"上玩這個(gè)游戲意味著解決其他所有AI問(wèn)題,并表現(xiàn)出類(lèi)似人類(lèi)智能的能力。為了理解為什么這是真的,請(qǐng)考慮這個(gè)游戲需要完成任何文本前綴,包括非常長(zhǎng)的前綴,包括對(duì)話(huà),包括每一種可能的對(duì)話(huà)前綴,包括用人類(lèi)語(yǔ)言表達(dá)的每一種經(jīng)驗(yàn)描述,包括在任何主題或情境上可以提出的所有問(wèn)題的答案,包括高級(jí)數(shù)學(xué),包括哲學(xué)等等??傊?,要玩得好,你需要理解文本,理解文本中描述的情境,想象自己處于這種情境中,然后回應(yīng)。它真的模仿了人類(lèi)的經(jīng)驗(yàn)和思想。(是的,這個(gè)論點(diǎn)可能有幾個(gè)反駁,例如人類(lèi)也可能需要詢(xún)問(wèn)圖像或場(chǎng)景或其他模型看不到的感知輸入。但我認(rèn)為你懂的。)
這就是我講述的Shannon的猜測(cè)游戲(也就是"語(yǔ)言建模")和在人類(lèi)水平上玩這個(gè)游戲意味著人類(lèi)水平智能的故事。
建立大型語(yǔ)言模型不能解決一切/任何問(wèn)題
現(xiàn)在,如果獲得完美語(yǔ)言建模能力意味著智能("AI-完備"),那么為什么我堅(jiān)持認(rèn)為建立最大可能的語(yǔ)言模型不會(huì)"解決一切"?我錯(cuò)了嗎?
答案是我當(dāng)時(shí)不認(rèn)為基于當(dāng)時(shí)存在的技術(shù)(當(dāng)時(shí)只在RNNs/LSTMs和Transformer之間切換)建立非常大的語(yǔ)言模型會(huì)讓我們距離"完美語(yǔ)言建模"甚遠(yuǎn)。
我錯(cuò)了嗎?有點(diǎn)。我絕對(duì)對(duì)大型語(yǔ)言模型的能力感到驚訝。在600億參數(shù)和1750億參數(shù)之間發(fā)生了一個(gè)相移,使語(yǔ)言模型的能力變得超級(jí)厲害。它們做的事情比我當(dāng)時(shí)認(rèn)為基于文本和基于RNNs/LSTMs/Transformers的語(yǔ)言模型能做的要多得多。當(dāng)我自大地說(shuō)它們"不能解決一切"時(shí),它們確實(shí)能做到所有事情。
是的,當(dāng)前的語(yǔ)言模型(chatGPT的第一版)確實(shí)"解決"了我當(dāng)時(shí)隱含考慮的語(yǔ)言理解問(wèn)題的集合中的所有事情。所以在這個(gè)意義上,我錯(cuò)了。但在另一個(gè)意義上,不,它沒(méi)有解決一切。至少現(xiàn)在還沒(méi)有。此外,當(dāng)前語(yǔ)言模型的性能并不僅僅是通過(guò)我當(dāng)時(shí)所想的語(yǔ)言語(yǔ)言建模來(lái)獲得的。我認(rèn)為這很重要,我將在下面討論這一點(diǎn)。
在接下來(lái)的部分中,我將簡(jiǎn)要描述我看到的當(dāng)前語(yǔ)言模型和當(dāng)時(shí)被認(rèn)為是語(yǔ)言模型之間的差異,并列舉一些我認(rèn)為大型語(yǔ)言模型尚未"解決"的問(wèn)題。我還將提到一些我認(rèn)為是正確但不相關(guān)/不感興趣的觀點(diǎn)。
自然語(yǔ)言建模和精挑細(xì)選的語(yǔ)言建模
我說(shuō)"當(dāng)前語(yǔ)言模型的性能并不僅僅是通過(guò)語(yǔ)言建模獲得的"是什么意思?大型語(yǔ)言模型的第一次展示(比如說(shuō)1700億參數(shù)級(jí)別的GPT-3)是(據(jù)我們所知)在自然發(fā)生的文本數(shù)據(jù)上訓(xùn)練的:在書(shū)籍中找到的文本、從互聯(lián)網(wǎng)爬取的文本、在社交網(wǎng)絡(luò)中找到的文本等。后來(lái)的模型(BLOOM、OPT)也使用了類(lèi)似的數(shù)據(jù)。這非常接近Shannon的游戲,也是過(guò)去幾十年中大多數(shù)人認(rèn)為的'語(yǔ)言建模'。這些模型已經(jīng)帶來(lái)了非常出色的性能。但chatGPT是不同的。
chatGPT有什么不同?在GPT-3和chatGPT之間有三個(gè)概念步驟:指令、代碼、基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)。最后一個(gè)盡管得到了最多的關(guān)注,但我個(gè)人認(rèn)為這是最無(wú)趣的。這是我隨手寫(xiě)的一些解釋。也許有一天我會(huì)把它變成一個(gè)更正式的論點(diǎn)。希望你能從中得到直覺(jué)。
像"傳統(tǒng)語(yǔ)言模型"一樣僅僅在"文本"上訓(xùn)練有一些明顯的理論局限性。最顯著的是,它沒(méi)有與"文本外部"任何事物的聯(lián)系,因此無(wú)法獲取"意義"或"交流意圖"。另一種說(shuō)法是,該模型"沒(méi)有接地"。模型操作的符號(hào)只是符號(hào),它們可以相互關(guān)聯(lián),但它們不會(huì)"接觸"到任何現(xiàn)實(shí)世界的項(xiàng)目上。所以語(yǔ)言模型可以知道符號(hào)"藍(lán)色",但不了解它背后任何的現(xiàn)實(shí)世界概念。
在指令調(diào)整中,模型訓(xùn)練者并非僅在“發(fā)現(xiàn)”數(shù)據(jù)上訓(xùn)練,而是開(kāi)始在人類(lèi)創(chuàng)建的特定數(shù)據(jù)上訓(xùn)練(在機(jī)器學(xué)習(xí)圈子中被稱(chēng)為“監(jiān)督學(xué)習(xí)”,例如從標(biāo)注樣本中學(xué)習(xí)),除了發(fā)現(xiàn)的數(shù)據(jù)外,人類(lèi)標(biāo)記員會(huì)寫(xiě)一些類(lèi)似于“請(qǐng)總結(jié)這篇文章”的東西,然后是他們得到的一些文本,然后是他們對(duì)這篇文章的摘要。或者,他們可能會(huì)寫(xiě)“將此文本翻譯成形式語(yǔ)言”,然后是一些文本,然后是形式語(yǔ)言。他們會(huì)創(chuàng)建許多這樣的說(shuō)明(許多摘要、許多翻譯等),針對(duì)許多不同的“任務(wù)”。然后這些將被添加到模型的訓(xùn)練數(shù)據(jù)中。
為什么這很重要?模型的核心仍是語(yǔ)言建模,去學(xué)習(xí)如何預(yù)測(cè)下一個(gè)單詞,僅僅基于文本嗎?確實(shí),但是,這里人類(lèi)注釋員會(huì)在文本中標(biāo)記一些基礎(chǔ)的符號(hào)。一些符號(hào)(“總結(jié)”,“翻譯”,“形式”)始終與它們表示的概念/任務(wù)一起使用。它們總是出現(xiàn)在文本的開(kāi)頭。這使這些符號(hào)(或“指令”)在某種程度上外部于其余數(shù)據(jù),使生成摘要與人類(lèi)“摘要”的概念相關(guān)?;蛘邠Q句話(huà)說(shuō),這有助于模型了解用戶(hù)在“指令”中請(qǐng)求“摘要”的交流意圖。這里的一個(gè)反對(duì)意見(jiàn)是,這種情況可能已經(jīng)在大型文本集合中自然發(fā)生,模型已經(jīng)從中學(xué)習(xí),那么新的是什么?我認(rèn)為直接指令比從非指令數(shù)據(jù)中推斷學(xué)習(xí)要容易得多(想想“這是一只狗”這樣的直接陳述,而不是需要從聽(tīng)到人們談?wù)摴分型茢啵Mㄟ^(guò)將訓(xùn)練數(shù)據(jù)的分布轉(zhuǎn)向這些注釋的情況,可以顯著改變模型的行為和它所具有的“接地”程度。也許通過(guò)明確的指令數(shù)據(jù),相比起不使用它們,我們可以使用更少的訓(xùn)練文本。
此外,最新一代模型還在編程語(yǔ)言代碼數(shù)據(jù)上進(jìn)行訓(xùn)練,特別是包含自然語(yǔ)言說(shuō)明或描述(以代碼注釋的形式)和相應(yīng)編程語(yǔ)言代碼的數(shù)據(jù)。這產(chǎn)生了另一種非常直接的接地形式。在這里,我們有文本流中的兩個(gè)獨(dú)立系統(tǒng):一個(gè)是人類(lèi)語(yǔ)言,另一個(gè)是編程語(yǔ)言。我們觀察這兩個(gè)系統(tǒng)之間的直接交互:人類(lèi)語(yǔ)言描述了概念(或意圖),然后在對(duì)應(yīng)的程序中實(shí)現(xiàn)。這是一種非常明確的“形式到意義配對(duì)”。我們當(dāng)然可以從中學(xué)到更多,而不是僅僅“形式”。(此外,我假設(shè)最新模型也在執(zhí)行上訓(xùn)練:程序和其輸出內(nèi)容的組合。這是一種更強(qiáng)的接地形式:指稱(chēng))。這現(xiàn)在已經(jīng)不再“僅僅”是語(yǔ)言建模了。
最后,RLHF,或“基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)”。這是一種夸張的說(shuō)法,意思就是模型現(xiàn)在觀察兩個(gè)人之間的對(duì)話(huà),一個(gè)扮演用戶(hù)的角色,另一個(gè)扮演“人工智能”,演示人工智能如何在不同情況下作出反應(yīng)。這明顯有助于模型學(xué)習(xí)對(duì)話(huà)的工作原理,以及如何在對(duì)話(huà)狀態(tài)中跟蹤信息(僅憑“發(fā)現(xiàn)”的數(shù)據(jù)非常困難)。并且給人類(lèi)的指令也是所有“......是不適當(dāng)?shù)?。”等公?模板響應(yīng)的來(lái)源,我們從模型中觀察到。這是一種通過(guò)示范訓(xùn)練模型“表現(xiàn)得好”的方法。
ChatGPT擁有全部以上三種甚至更多的特點(diǎn)。這就是為什么我認(rèn)為它和傳統(tǒng)的語(yǔ)言模型有很大不同,為什么它可能不會(huì)“服從”我們(或我)對(duì)語(yǔ)言模型的期望,以及為什么它在許多任務(wù)上表現(xiàn)如此出色:它是一種監(jiān)督模型,具有訪(fǎng)問(wèn)外部模態(tài)的能力,并且通過(guò)對(duì)話(huà)形式明確地進(jìn)行遵循大量指令的訓(xùn)練。
還有什么缺失?普遍但乏味的論點(diǎn)
關(guān)于語(yǔ)言模型有很多常見(jiàn)的論點(diǎn),我認(rèn)為這些論點(diǎn)是正確的,但是對(duì)我在這里的討論沒(méi)有啟發(fā)意義/不相關(guān)。
它們很浪費(fèi),訓(xùn)練它們非常昂貴,使用它們也非常昂貴。
是的,現(xiàn)在這是事實(shí)。但是隨著時(shí)間的推移,事情會(huì)變得更便宜。另外,讓我們把事情放在適當(dāng)?shù)慕嵌葋?lái)看:是的,這在環(huán)境上是非常昂貴的,但是我們并沒(méi)有訓(xùn)練那么多,總成本相對(duì)于我們?nèi)祟?lèi)做的其他能量消耗來(lái)說(shuō)是微不足道的。而且,我也不確定環(huán)境論點(diǎn)與“這些東西有趣”,“這些東西有用”等問(wèn)題有什么關(guān)系。這是一個(gè)經(jīng)濟(jì)問(wèn)題。
這些模型編碼了許多偏差和刻板印象。
嗯,當(dāng)然。它們模仿了人類(lèi)語(yǔ)言,我們?nèi)祟?lèi)是可怕的生物,我們具有偏差并不斷進(jìn)行刻板印象。這意味著我們?cè)趯⑦@些模型應(yīng)用于實(shí)際任務(wù)時(shí)需要非常小心,但這并不意味著它們?cè)诳茖W(xué)角度上變得不正確/沒(méi)有用處/沒(méi)有趣。
這些模型并沒(méi)有真正理解語(yǔ)言。
當(dāng)然。它們并不能。那又怎樣?我們專(zhuān)注于它們能做到的,也許嘗試改進(jìn)它們不能做到的地方?
這些模型永遠(yuǎn)不會(huì)真正理解語(yǔ)言。
再說(shuō)一遍,那又怎樣?它們顯然很好地覆蓋了一些方面。讓我們看看這些?或者如果你不關(guān)心這些方面,就不用看了。那些想要真正理解語(yǔ)言的人可能確實(shí)更愿意去其他地方尋找。我對(duì)近似理解感到滿(mǎn)意。
這些模型不像人類(lèi)那樣理解語(yǔ)言。
呵呵?難道它們是人類(lèi)嗎?當(dāng)然它們?cè)谀承C(jī)制上有所不同。它們?nèi)匀豢梢愿嬖V我們很多關(guān)于語(yǔ)言結(jié)構(gòu)的東西。對(duì)于它們不能告訴我們的東西,我們可以去其他地方尋找。
你不能僅基于形式學(xué)到任何有意義的東西:
但它不是僅僅基于形式訓(xùn)練的,請(qǐng)參見(jiàn)上面的部分。
它只能根據(jù)一些統(tǒng)計(jì)數(shù)據(jù)連接它之前看到的東西。
...而這不是非常了不起的嗎?大型模型以非常強(qiáng)大的方式連接詞匯和短語(yǔ)。而且,請(qǐng)考慮根據(jù)統(tǒng)計(jì)數(shù)據(jù)將語(yǔ)料庫(kù)中的詞語(yǔ)和短語(yǔ)連接起來(lái)的錯(cuò)誤方式有多少。以及這些模型如何避免這些錯(cuò)誤方式,并選擇“有意義”的方式。我認(rèn)為這是非常了不起的。
我們不知道這些東西可能對(duì)社會(huì)產(chǎn)生的影響:
這是關(guān)于任何新技術(shù)/新發(fā)現(xiàn)的事實(shí)。讓我們?nèi)グl(fā)現(xiàn)。我們可以嘗試小心地做。但這并不意味著這件事情不有趣/不有效/不值得研究。它只是增加了一個(gè)值得研究的方面。
模型沒(méi)有引用它們的來(lái)源:
確實(shí)如此。但是...那又怎樣?我能理解為什么在某些類(lèi)型的應(yīng)用中你會(huì)希望這樣,你當(dāng)然希望模型不會(huì)欺騙你,也許你希望能夠驗(yàn)證它們不會(huì)欺騙你,但這些都與語(yǔ)言模型的核心無(wú)關(guān)/在我看來(lái)這不是正確的問(wèn)題。畢竟,人類(lèi)在真實(shí)意義上并沒(méi)有“引用來(lái)源”,我們很少將我們的知識(shí)歸因于特定的單一來(lái)源,如果我們這樣做,我們通常是在一個(gè)理性化的過(guò)程中做出論述,或在一個(gè)非常有意識(shí)的過(guò)程中找到來(lái)源并引用它。這可以復(fù)制。從應(yīng)用的角度來(lái)看(例如,如果我們想要開(kāi)發(fā)一個(gè)搜索系統(tǒng)、一個(gè)論文寫(xiě)作系統(tǒng)、一個(gè)通用問(wèn)題回答系統(tǒng)),人們當(dāng)然可以通過(guò)生成過(guò)程或后處理步驟或在先檢索再生成的設(shè)置中將話(huà)語(yǔ)與來(lái)源相關(guān)聯(lián)。很多人都在這么做。但這與語(yǔ)言理解無(wú)關(guān)。但是,有趣的是,我認(rèn)為更有建設(shè)性的問(wèn)題是(a)如何將來(lái)自模型的回答與來(lái)自人類(lèi)的回答區(qū)分開(kāi)來(lái)?(b)如何評(píng)估模型的回答是否準(zhǔn)確?(c)如何提高模型的回答質(zhì)量?這些都是重要的問(wèn)題,值得研究。
那么缺少什么/有哪些真正的局限呢?
這是我認(rèn)為目前"大型語(yǔ)言模型"(包括最新的chatGPT)中存在的一些挑戰(zhàn)性問(wèn)題的非正式且不完整的一些點(diǎn),這些問(wèn)題阻礙了它們?cè)谀撤N意義上"完全理解"語(yǔ)言。這些是模型仍然無(wú)法做到的事情,或者至少非常不適合做到的事情。
將多個(gè)文本彼此關(guān)聯(lián)。在模型的訓(xùn)練中,模型將文本作為一個(gè)大型流或獨(dú)立的信息塊進(jìn)行消耗。它們可能會(huì)得到文本中的共性模式,但它對(duì)文本如何與現(xiàn)實(shí)世界中的"事件"相關(guān)聯(lián)沒(méi)有任何概念。特別是,如果模型在關(guān)于同一事件的多篇新聞故事上進(jìn)行訓(xùn)練,它無(wú)法知道這些文本都描述的是同一件事,并且無(wú)法將其與描述相似但不相關(guān)事件的文本區(qū)分開(kāi)來(lái)。在這個(gè)意義上,模型無(wú)法真正形成(或根本不能形成)從所有文本中"閱讀"的一個(gè)連貫和完整的世界觀。
時(shí)間的概念。同樣,模型在訓(xùn)練流中沒(méi)有哪些事件其他事件的概念。它們根本沒(méi)有時(shí)間的概念,除了可能的明確提到的時(shí)間。因此,它可能會(huì)學(xué)習(xí) "Obama became president in 2009" 等表達(dá)的局部含義,并在其他明確標(biāo)明日期的事情之前或之后進(jìn)行推理。但它不能理解時(shí)間的流動(dòng),即如果它在另一篇文本中讀到 "Obama is the current president of the united state",并在第三篇文本中讀到 "Obama is no longer the president",模型不能理解它們之間是如何相互跟隨的,以及現(xiàn)在是什么是真實(shí)的。它可以同時(shí)"相信" "Obama is the current president of the US"、"Trump is the current president of the US"和 "Biden is the current president of the US"都是有效的陳述。同樣,它真的沒(méi)有實(shí)際的方法來(lái)解釋像 "X is the latest album by Y" 這樣的陳述,以及它們之間的關(guān)系。
知識(shí)的知識(shí) 模型并不真的知道它們知道了什么。它們甚至不知道"知道"是什么。它們所做的就是猜測(cè)文本流中的下一個(gè)詞,并且猜下一個(gè)詞可能是基于有充分根據(jù)的知識(shí),也可能是完全的猜測(cè)。模型的訓(xùn)練和訓(xùn)練數(shù)據(jù)沒(méi)有明確的機(jī)制來(lái)區(qū)分這兩種情況,當(dāng)然也沒(méi)有明確的機(jī)制根據(jù)它們來(lái)采取不同的行動(dòng)。這體現(xiàn)在有據(jù)可查的“自信地編造東西”的趨勢(shì)中。 從示范中學(xué)習(xí) (RLHF) 使模型“意識(shí)到”某些答案應(yīng)該謹(jǐn)慎對(duì)待,也許模型甚至學(xué)會(huì)了將這種謹(jǐn)慎程度與某些事實(shí)、實(shí)體或主題的涵蓋程度聯(lián)系起來(lái) 他們的訓(xùn)練數(shù)據(jù),或者數(shù)據(jù)反映在他們內(nèi)部權(quán)重中的程度。 因此,從這個(gè)意義上說(shuō),他們展示了一些知識(shí)知識(shí)。 但是當(dāng)他們熬過(guò)了這個(gè)拒絕回答的初始階段,進(jìn)入“文本生成模式”時(shí),他們“失去”了所有這些知識(shí),并且很快過(guò)渡到“編造”模式,也就是在它所知道的事情上 明確說(shuō)明(在不同的階段)是不知道的。
數(shù)字和數(shù)學(xué) 這些模型真的不具備執(zhí)行數(shù)學(xué)的能力。它們的基本構(gòu)建塊是“詞塊”,它們并不真正對(duì)應(yīng)于任何方便的基礎(chǔ)中的數(shù)字。 他們也沒(méi)有任何合適的方法以任何有意義且一致的方式學(xué)習(xí)不同數(shù)字之間的關(guān)系(例如 +1 或“大于”關(guān)系)。大型語(yǔ)言模型在一些涉及數(shù)字的問(wèn)題上表現(xiàn)得還算不錯(cuò),但實(shí)際上有比我們給大型語(yǔ)言模型的機(jī)制更好的方法來(lái)表示數(shù)字和數(shù)學(xué),令人驚訝的是他們可以做任何事情。 但我懷疑如果沒(méi)有一些更明確的建模,他們不會(huì)走得太遠(yuǎn)。
罕見(jiàn)事件、高召回率設(shè)置、高覆蓋率設(shè)置:從本質(zhì)上講,模型側(cè)重于常見(jiàn)和可能的情況。 這讓我立即懷疑它們是否有能力從數(shù)據(jù)中的罕見(jiàn)事件中學(xué)習(xí),或回憶起罕見(jiàn)事件,或回憶所有事件。 在這里,我比其他方面更不確定:他們也許能夠做到。 但我目前持懷疑態(tài)度。
數(shù)據(jù)饑餓 這可能是我在當(dāng)前大型語(yǔ)言模型中看到的最大的技術(shù)問(wèn)題:它們極度渴望數(shù)據(jù)。 為了取得令人印象深刻的表現(xiàn),他們接受了數(shù)萬(wàn)億個(gè)單詞的訓(xùn)練。 顯而易見(jiàn)的“.....人類(lèi)從其中的一小部分中學(xué)習(xí)”當(dāng)然是正確的,但它本身對(duì)我來(lái)說(shuō)并不是很有趣:那又怎樣? 模型不必為了有用而模仿人類(lèi)。 不過(guò)還有其他含義,我發(fā)現(xiàn)這非常令人不安:大多數(shù)人類(lèi)語(yǔ)言沒(méi)有那么多數(shù)據(jù),當(dāng)然也沒(méi)有以數(shù)字形式提供的數(shù)據(jù)。 為什么這很重要?因?yàn)檫@意味著我們將很難復(fù)制我們現(xiàn)在對(duì)其他語(yǔ)言(例如我的母語(yǔ)希伯來(lái)語(yǔ),甚至更常見(jiàn)的語(yǔ)言)的令人難以置信的英語(yǔ)理解結(jié)果,像德語(yǔ)、法語(yǔ)或阿拉伯語(yǔ),甚至中文或印地語(yǔ)(我甚至不考慮所謂的“低資源”語(yǔ)言,就像許多非洲和菲律賓語(yǔ)言一樣)。我們可以用這些語(yǔ)言獲得很多數(shù)據(jù),但不是那么多數(shù)據(jù)。 是的,通過(guò)“指令訓(xùn)練”,我們可能需要更少的數(shù)據(jù)。 但是接下來(lái)需要?jiǎng)?chuàng)建指令數(shù)據(jù):對(duì)于我們要添加的每一種新語(yǔ)言來(lái)說(shuō),這都是一項(xiàng)艱巨的任務(wù)。 此外,如果我們相信(并且我相信)代碼 + 語(yǔ)言的培訓(xùn)很重要,那么這就是為英語(yǔ)以外的語(yǔ)言實(shí)現(xiàn)類(lèi)似模型的另一個(gè)巨大障礙。這難道不能通過(guò)翻譯來(lái)解決嗎?畢竟我們?cè)跈C(jī)器翻譯方面也有很大的進(jìn)步。 我們可以翻譯成英文,在那里運(yùn)行模型,然后再翻譯回來(lái)。 嗯,是的,我們可以。 但這只會(huì)在非常膚淺的層面上起作用。 不同的語(yǔ)言來(lái)自不同的地理區(qū)域,這些區(qū)域有其當(dāng)?shù)氐奈幕?、?xí)俗、故事、事件等。 這些以各種方式不同于英語(yǔ)地區(qū)的文化、規(guī)范、故事和事件。 即使是“城市”這樣的簡(jiǎn)單概念也會(huì)因社區(qū)和地域而異,更不用說(shuō)“禮儀”或“暴力”等概念了。 或者“只是”關(guān)于某些人、歷史事件、重要地點(diǎn)、植物、習(xí)俗等的“事實(shí)”知識(shí)。這些不會(huì)反映在英語(yǔ)培訓(xùn)數(shù)據(jù)中,也無(wú)法通過(guò)翻譯涵蓋。因此,數(shù)據(jù)饑餓是一個(gè)真正的問(wèn)題,如果我們考慮到我們可能希望在英語(yǔ)之外也擁有語(yǔ)言理解和“人工智能”技術(shù)。對(duì)于我們這些想要擔(dān)心社會(huì)影響的人來(lái)說(shuō),這種數(shù)據(jù)饑渴和英語(yǔ)/美國(guó)中心的結(jié)合絕對(duì)是一個(gè)需要考慮的大問(wèn)題。
模塊化 在上面“常見(jiàn)但無(wú)聊的爭(zhēng)論”部分的末尾,我問(wèn)“我們?nèi)绾螌㈥P(guān)于語(yǔ)言和推理的‘核心‘知識(shí)與關(guān)于‘事物‘的具體事實(shí)知識(shí)分開(kāi)”。 我認(rèn)為這是一個(gè)要問(wèn)的主要問(wèn)題,解決這個(gè)問(wèn)題將大大有助于取得進(jìn)展(如果不是“解決”)許多其他問(wèn)題。 如果我們能夠?qū)ⅰ昂诵恼Z(yǔ)言理解和推理”部分與“知識(shí)”部分模塊化和分離,我們也許能夠更好地解決數(shù)據(jù)饑餓問(wèn)題和由此產(chǎn)生的文化知識(shí)差距,我們也許能夠更好地 處理和控制偏見(jiàn)和刻板印象,我們幾乎可以“免費(fèi)”獲得知識(shí)的知識(shí)。 (很多人都在研究“檢索增強(qiáng)語(yǔ)言模型”。這可能是也可能不是解決這個(gè)問(wèn)題的正確方法。我傾向于懷疑是否有更基本的方法可以找到。但歷史證明我沒(méi)有 對(duì)這些事情的直覺(jué)。)
結(jié)論
大型語(yǔ)言模型是驚人的。語(yǔ)言建模還不夠,但“當(dāng)前的語(yǔ)言模型”其實(shí)不僅僅是語(yǔ)言模型,它們能做的比我們想象的要多得多。但是,如果我們關(guān)心“包容性”語(yǔ)言理解,這仍然“不夠”,即便我們不關(guān)心,也還是不夠。
歡迎關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會(huì)<<