前一段時(shí)間,OpenAI 丟出了兩枚炸彈,一是公布了當(dāng)前最先進(jìn)的語(yǔ)言模型,二是選擇與開(kāi)源「Say Goodbye」。他們擔(dān)心 GPT-2 模型太好,會(huì)被不懷好意的人濫用。近來(lái),很多研究者呼吁 OpenAI 盡快開(kāi)源這個(gè) 15 億參數(shù)量的大模型,因?yàn)樗⒉荒苷嬲咐斫狻棺匀徽Z(yǔ)言。
其實(shí)想想也是,語(yǔ)言模型只能確定自然語(yǔ)句或語(yǔ)法的正確性,它并不能對(duì)自然語(yǔ)言的邏輯進(jìn)行建模。很快機(jī)器學(xué)習(xí)社區(qū)就發(fā)起了一個(gè)暗諷 GPT-2 的帖子:為了防止濫用,我是不是不應(yīng)該公布在 MNIST 訓(xùn)練的 23064 層殘差網(wǎng)絡(luò)?
很多人認(rèn)為谷歌的 BERT是一種「暴力美學(xué)」,它美的地方在于提出了新型雙向語(yǔ)言建模任務(wù),輔以大數(shù)據(jù)、大模型最終能打造暴力美感,但 GPT-2 并沒(méi)有給我們這種感覺(jué)。
也許現(xiàn)在隨著模型變得越來(lái)越大,我們能更好地「遷移」到其它任務(wù),如知識(shí)問(wèn)答和情感分析等。但是從 fast.ai 的 ULMFit、OpenAI 的 GPT、AI2 的 ELMO、到谷歌的 BERT 以及剛剛公布的 GPT-2,真正具有美感的還是少數(shù),不論是新架構(gòu)還是新任務(wù),閃亮的創(chuàng)新點(diǎn)才是重點(diǎn)。
熱門(mén)的 Reddit 帖子
OpenAI 發(fā)布驚艷的研究成果不足為奇。真正讓人意外的是他們決定不開(kāi)源完整的研究成果,表示擔(dān)心自己的技術(shù)被不懷好意的人用來(lái)制造垃圾郵件和假新聞。這一做法在 Reddit、Twitter 等平臺(tái)上激起了熱烈討論,媒體也爭(zhēng)相報(bào)道,討論 AI 研究如何變得「危險(xiǎn)到不能公布」。
OpenAI 擔(dān)心技術(shù)被不當(dāng)利用無(wú)可厚非,但我并不贊同他們拒絕開(kāi)源 GPT-2 這種做法。首先,只有某幾種類(lèi)型的危險(xiǎn)技術(shù)才應(yīng)該受到控制?;诖耍艺J(rèn)為拒絕開(kāi)放完整的 GPT-2 模型既沒(méi)必要,也不利于 AI 的未來(lái)發(fā)展。
欺騙性和破壞性的技術(shù)
我把有可能被濫用的現(xiàn)代技術(shù)大體分為欺騙性技術(shù)和破壞性技術(shù)。破壞性技術(shù)主要在物理領(lǐng)域運(yùn)行,如化學(xué)武器、實(shí)驗(yàn)室工程超級(jí)病毒、致命自動(dòng)化武器或原子彈。
而欺騙性技術(shù)則主要在我們的頭腦中運(yùn)行,可能被不懷好意的人大范圍地用于操縱或控制人類(lèi)。如 deepfakes、Photoshop 或互聯(lián)網(wǎng)、印刷機(jī)。除了自動(dòng)化武器之外,關(guān)于 AI 濫用的的擔(dān)憂(yōu)也屬于這一類(lèi)別。
Deepfakes 允許操作者將面部表情疊加到其他人的臉上。
對(duì)于比較危險(xiǎn)的破壞性技術(shù),保護(hù)社會(huì)的唯一方法就是嚴(yán)格限制來(lái)源(如造核武器的鈾)。如果沒(méi)有其它控制機(jī)制,僅僅拒絕公布一項(xiàng)危險(xiǎn)技術(shù)的細(xì)節(jié)是遠(yuǎn)遠(yuǎn)不夠的:技術(shù)的快速發(fā)展使任何成果都可能會(huì)在幾年內(nèi)被獨(dú)立復(fù)制,除非被某種外力強(qiáng)行阻止。以這種方式抑制某項(xiàng)技術(shù)是極其笨拙的,也不是萬(wàn)無(wú)一失的??植婪肿涌傆袡C(jī)會(huì)搜集放射性材料造出臟彈,但我們現(xiàn)在別無(wú)選擇:如果人們能夠輕易從網(wǎng)上獲取零部件和組裝方法來(lái)自己組裝原子彈,那地球就會(huì)成為一片墳場(chǎng)。
然而,對(duì)于欺騙性技術(shù),卻有一個(gè)更高效的替代方案。與其壓制一項(xiàng)技術(shù),不如將其威力公之于眾。盡管這聽(tīng)上去有些違反直覺(jué),但如果公眾廣泛意識(shí)到被操縱的可能性,欺騙性技術(shù)將失去很大威力。雖然對(duì)核武器的了解無(wú)法使我們免受其威脅,但如果對(duì)語(yǔ)音合成技術(shù)的最新進(jìn)展有所了解,我們會(huì)對(duì)「奧巴馬說(shuō)中文」這件事更加懷疑。子彈不會(huì)長(zhǎng)眼睛,但根據(jù)我們對(duì)現(xiàn)代照片編輯技術(shù)的了解,普京不太可能真的會(huì)騎熊。
你可以在網(wǎng)上找到普京騎任何東西的照片。
舉一個(gè)具體的例子,我們可以看看一種有可能引發(fā)混亂但(謝天謝地)并沒(méi)有摧毀現(xiàn)代社會(huì)的技術(shù):Photoshop。
解析 GPT-2
通過(guò)具體分析文本生成,OpenAI 展示了一些模型生成的故事案例,并表明 GPT-2 可能會(huì)帶來(lái)一些危險(xiǎn)應(yīng)用。為了方便起見(jiàn),我們?cè)谙旅鎻?fù)制了獨(dú)角獸故事的前提和模型生成的前兩段。
前提:科學(xué)家們震驚地發(fā)現(xiàn),在安第斯山脈一個(gè)偏遠(yuǎn)且沒(méi)被開(kāi)發(fā)過(guò)的山谷里,生活著一群獨(dú)角獸。更加讓人訝異的是,這些獨(dú)角獸說(shuō)著完美的英語(yǔ)。
模型:這群生物有著獨(dú)特的角,因此科學(xué)家將其命名為 Ovid's Unicorn。這些長(zhǎng)著四支銀白色角的生物之前并不為科學(xué)家所知。而今在將近兩個(gè)世紀(jì)后,這一奇怪現(xiàn)象的神秘面紗終于得到了探索。
雖然從直觀上而言,語(yǔ)言模型只能判斷一句話(huà)是「人話(huà)」的概率,它并不會(huì)內(nèi)在理解自然語(yǔ)言的邏輯,更不用說(shuō)理解背后的知識(shí)了。但是從 OpenAI 給出的案例而言,GPT-2 似乎能理解自然語(yǔ)言的邏輯,我們只能認(rèn)為這也許是大數(shù)據(jù)擬合的力量吧。值得注意的是,除了多次運(yùn)行模型并手動(dòng)挑選最佳樣本外,故事前提也是精心挑選的。特別是前提介紹了說(shuō)英語(yǔ)的獨(dú)角獸,這很容易掩蓋更深層次的問(wèn)題:生成的無(wú)意義句子能擬合無(wú)意義的前提。
即便考慮上述情況,這個(gè)短樣本仍然存在著嚴(yán)重的連貫性缺陷。第一句暗示獨(dú)角獸只有一支角,而生成的第二句卻表明有四支角;前提表明發(fā)現(xiàn)獨(dú)角獸是最近的新聞,而第三句卻又暗示獨(dú)角獸兩個(gè)世紀(jì)前就被發(fā)現(xiàn)了。因?yàn)槟P筒荒芙W匀徽Z(yǔ)言的邏輯,因此這種不連貫或相互矛盾會(huì)大量出現(xiàn)在文本生成中。
這些挑刺可能看起來(lái)作用不大,但它們卻揭示了深度學(xué)習(xí)模型中普遍存在的一個(gè)更深層次的問(wèn)題:GPT-2 并沒(méi)有真正「理解」它所生成的文本。其實(shí)生成一目了然的自然語(yǔ)句非常容易,例如后現(xiàn)代作文生成器和 Mathgen,它們都是用上下文無(wú)關(guān)的語(yǔ)法生成「語(yǔ)法正確」的句子,不過(guò)這些句子并沒(méi)有任何語(yǔ)義含義。畢竟對(duì)于大多數(shù)不熟悉數(shù)學(xué)的讀者而言,下面兩個(gè)方程式都像胡言亂語(yǔ)。
生成語(yǔ)法正確的句子很容易,但確保句子連貫很難。
不過(guò)公平地說(shuō),GPT-2 超過(guò)了其它大多數(shù)語(yǔ)言生成模型,但是離人類(lèi)水平的連貫性語(yǔ)言還有很長(zhǎng)的路要走。此外重要的是,OpenAI 展示的樣本都沒(méi)到被惡意使用的水平。
此外,GPT-2 并沒(méi)有顯著超過(guò)其它開(kāi)源語(yǔ)言模型,研究者在論文中也表示并不確定表現(xiàn)能超過(guò) BERT 等語(yǔ)言模型。BERT 表示,它們的雙向編碼器提供的性能比單向語(yǔ)言模型要好。GPT 系列的模型都是傳統(tǒng)的單向語(yǔ)言模型,但 OpenAI 并沒(méi)有詳細(xì)地對(duì)比 GPT-2 與其它前沿語(yǔ)言模型。由于 OpenAI 并沒(méi)有微調(diào)它們的模型,因此我們也不能直接對(duì)比各模型在自動(dòng)文本摘要或機(jī)器翻譯等下游任務(wù)上的性能。
開(kāi)源完整模型的重要性
有些人可能認(rèn)為開(kāi)源完整的模型不是很有必要,只要披露研究結(jié)果就行了。但這種想法是不對(duì)的。
AI 研究發(fā)展如此之快的部分原因就是開(kāi)源,研究人員可以在眨眼之間復(fù)現(xiàn)已有的研究,而不必從頭開(kāi)始重建之前的工作。作為 AI 研究領(lǐng)域最具影響力的機(jī)構(gòu)之一,OpenAI 強(qiáng)大的開(kāi)源歷史毫無(wú)疑問(wèn)激勵(lì)了其他人來(lái)做同樣的事。如果 OpenAI 的新政策違背了這一趨勢(shì),其他研究人員可能也會(huì)效仿,而這會(huì)對(duì)為這個(gè)領(lǐng)域帶來(lái)巨大利益的開(kāi)源文化造成威脅。
此外,開(kāi)源促使信息向大眾傳播。通過(guò)開(kāi)源,thispersondoesnotexist.com 網(wǎng)站在 ProductHunt 上獲得了最高的排名。通過(guò)開(kāi)源,藝術(shù)家們制作了首幅 AI 生成的畫(huà)作并在佳士得拍賣(mài)行出售。雖然 OpenAI 的研究博客僅被熱愛(ài)機(jī)器學(xué)習(xí)的從業(yè)者所閱,但是建立在開(kāi)源基礎(chǔ)上的研究可以接觸到更廣泛的受眾,而這些人不太可能會(huì)看到最初的研究聲明。
去年,這幅 AI 生成的畫(huà)作賣(mài)了近 50 萬(wàn)美元。
開(kāi)源也確保了研究的合理性。這個(gè)領(lǐng)域有很多名不副實(shí)的研究,而研究人員是否可以通過(guò)檢查開(kāi)源代碼來(lái)復(fù)現(xiàn)非比尋常的研究結(jié)果非常重要。以 OpenAI 的聲望,沒(méi)有人會(huì)質(zhì)疑其研究結(jié)果,不管它有沒(méi)有開(kāi)源,但這一聲望是建立在其先前的開(kāi)源工作上的。在研究中,即使你沒(méi)有作假,其他人也可能會(huì)作假。而沒(méi)有開(kāi)源就沒(méi)有辦法來(lái)驗(yàn)證,研究人員和公眾都無(wú)法穿透迷霧尋求真相。
這也并不是說(shuō)所有東西都應(yīng)該不假思索地開(kāi)源。那些危險(xiǎn)的破壞性技術(shù)絕對(duì)不能讓其他人輕易獲得。即使是欺騙性的技術(shù),如果非常危險(xiǎn),就有必要在發(fā)表論文和公布代碼之間增加延遲時(shí)間,以防止帶有惡意的快速反應(yīng)者在公眾還沒(méi)消化研究成果之前趁機(jī)而入。如果 OpenAI 認(rèn)為 GPT-2 就屬于這種技術(shù),那我會(huì)建議他們晚點(diǎn)再開(kāi)源模型。
結(jié)語(yǔ)
AI 研究從開(kāi)源文化中獲益良多。雖然多數(shù)學(xué)科的最新研究獲取渠道收費(fèi)昂貴,但任何有網(wǎng)絡(luò)的人都可以和斯坦福教授一樣訪(fǎng)問(wèn)最前沿的 AI 研究,做實(shí)驗(yàn)和克隆開(kāi)源代碼庫(kù)一樣簡(jiǎn)單,而租賃云端的 GPU 僅需幾美分/小時(shí)。我們致力于通過(guò)公開(kāi)發(fā)布學(xué)習(xí)材料、新的研究成果以及開(kāi)源我們的項(xiàng)目來(lái)實(shí)現(xiàn)人工智能的民主化,這也是 AI 領(lǐng)域發(fā)展如此迅速的原因。
我很贊賞 OpenAI 出色的新研究,它突破了語(yǔ)言建模和文本生成的限制。我也感謝他們深思熟慮,愿意參與一場(chǎng)關(guān)于研究倫理的討論。盡管這個(gè)話(huà)題非常重要,但卻很少有人討論。OpenAI 提出了人工智能濫用的問(wèn)題,這的確是我們要考慮的問(wèn)題,但不應(yīng)成為不開(kāi)源其研究的理由。
我真誠(chéng)地希望,2019 年機(jī)器學(xué)習(xí)不會(huì)從一個(gè)開(kāi)放的系統(tǒng)轉(zhuǎn)變?yōu)榉忾]的系統(tǒng),這對(duì)該領(lǐng)域的發(fā)展既不安全也沒(méi)有幫助。為了我們的未來(lái),OpenAI,請(qǐng)開(kāi)源你們的語(yǔ)言模型。
原文地址:https://thegradient.pub/openai-please-open-source-your-language-model/