自 ChatGPT 發(fā)布以來(lái),它的能力不斷被人們解鎖,比如寫神經(jīng)網(wǎng)絡(luò)、做智能音箱。人們?cè)谠囉弥新l(fā)現(xiàn),數(shù)學(xué)能力是 ChatGPT 的一大短板,連簡(jiǎn)單的「雞兔同籠」題都能算錯(cuò)。
大概是考慮到了這一點(diǎn),ChatGPT 剛剛宣布了一次重要更新:提升了「真實(shí)性」和「數(shù)學(xué)能力」。
本次是 ChatGPT 自去年 11 月推出以來(lái)的第三次更新,但由于「更新說(shuō)明」過(guò)于模糊,人們還需要經(jīng)歷一個(gè)對(duì)新能力的探索過(guò)程。
幾日前,計(jì)算機(jī)科學(xué)家、Wolfram 語(yǔ)言之父 Stephen Wolfram 將理工科神器 Wolfram|Alpha 與 ChatGPT 結(jié)合起來(lái),為后者注入超強(qiáng)計(jì)算知識(shí)實(shí)現(xiàn)互補(bǔ),效果相當(dāng)不錯(cuò)。
那么,這次更新之后的 ChatGPT 數(shù)學(xué)能力可與其一戰(zhàn)嗎?
看起來(lái)…… 對(duì)比的結(jié)果不盡如人意:
還有人發(fā)現(xiàn),升級(jí)后的 ChatGPT「脾氣逐漸暴躁」:
這也許是「偶然現(xiàn)象」?看來(lái)數(shù)學(xué)是真難。
不管怎么說(shuō),我們可以期待一波后續(xù)的有趣 Demo 了。
太卷了:ChatGPT 和它的競(jìng)爭(zhēng)者們
「未來(lái) 6 到 12 個(gè)月將帶來(lái)實(shí)驗(yàn)的爆炸式增長(zhǎng),一旦公司能夠使用 OpenAI 的 API 在 ChatGPT 之上構(gòu)建。出現(xiàn)的殺手級(jí)用例可能是圍繞生成式 AI 對(duì)知識(shí)管理的影響。」
在最近的一次公開(kāi)活動(dòng)上,安永全球首席技術(shù)官 Nicola Morini Bianzino 表示,目前還沒(méi)出現(xiàn)在企業(yè)中使用 ChatGPT 的「殺手級(jí)」用例。但這種狀態(tài)可能很快就會(huì)改變,他預(yù)測(cè)未來(lái) 6 到 12 個(gè)月將帶來(lái)大量實(shí)驗(yàn),尤其是當(dāng)公司能夠使用 OpenAI 的 API 在 ChatGPT 上構(gòu)建之后。
Bianzino 將生成式 AI 對(duì)知識(shí)管理的影響描述為「AI 的辯證法」?!钢R(shí)公司傾向于以一種非常扁平的二維方式存儲(chǔ)知識(shí),這使得訪問(wèn)、互動(dòng)和對(duì)話變得困難。我們?cè)?20、30、40 年前嘗試構(gòu)建專家系統(tǒng)。這并不是很順利,因?yàn)樗鼈兲腊辶?。我認(rèn)為這項(xiàng)技術(shù)有望克服專家系統(tǒng)存在的許多問(wèn)題。」Nicola Morini Bianzino 表示。
與此同時(shí),ChatGPT 的競(jìng)爭(zhēng)者們也不斷涌現(xiàn),這個(gè)賽道變得越來(lái)越「卷」。從 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、谷歌公司的 LaMDA 到 Character AI,每天似乎都有新競(jìng)爭(zhēng)者步入賽場(chǎng)。
Anthropic 是一家舊金山的初創(chuàng)公司,由幾位離開(kāi) OpenAI 的研究人員于 2021 年創(chuàng)立。公司成立不到一年后就宣布了高達(dá) 5.8 億美元的融資,上周五還被報(bào)道即將增加 3 億美元融資。
這家公司開(kāi)發(fā)了一個(gè)名為「Claude」的 AI 聊天機(jī)器人,目前通過(guò) Slack 集成在封閉測(cè)試版中可用,據(jù)報(bào)道它與 ChatGPT 相似,甚至有一些改進(jìn)。Anthropic 描述自身的使命為「致力于構(gòu)建可靠、可解釋和可操縱的 AI 系統(tǒng)」。
DeepMind 同樣是這條賽道上不可忽視的力量。這家公司在 9 月份的一篇論文中介紹了 「Sparrow」,被譽(yù)為「朝著創(chuàng)建更安全、偏差更小的機(jī)器學(xué)習(xí)系統(tǒng)邁出的重要一步」。Sparrow 是「一種有用的對(duì)話智能體,可以降低不安全和不適當(dāng)答案的風(fēng)險(xiǎn)」,旨在「與用戶交談、回答問(wèn)題并在有助于查找證據(jù)」。
不過(guò),DeepMind 的安全研究員、 Sparrow 論文的主要作者 Geoffrey Irving 表示,DeepMind 認(rèn)為 Sparrow 是一個(gè)基于研究的概念驗(yàn)證模型,尚未準(zhǔn)備好部署。
在兩周前的《時(shí)代周刊》文章中,該公司的首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis 表示,DeepMind 正在考慮在 2023 年的某個(gè)時(shí)候發(fā)布其聊天機(jī)器人 Sparrow 的「私人測(cè)試版」。如此一來(lái),公司就可以開(kāi)發(fā)基于強(qiáng)化學(xué)習(xí)的功能,比如引用來(lái)源 —— 這是 ChatGPT 所沒(méi)有的能力。
再說(shuō)到谷歌的 LaMDA,這一模型曾在去年夏天引發(fā)過(guò)熱議 —— 谷歌工程師 Blake Lemoine 因聲稱 LaMDA 具有感知能力而被解雇。
即使不像 Lemoine 認(rèn)為的那樣,LaMDA 仍被認(rèn)為是 ChatGPT 最大的競(jìng)爭(zhēng)對(duì)手之一。谷歌在 2021 年發(fā)布的博客文章中表示,LaMDA 的對(duì)話技巧「已經(jīng)醞釀多年」。與 ChatGPT 一樣,LaMDA 建立在 Transformer 架構(gòu)之上,也接受過(guò)對(duì)話方面的訓(xùn)練。
根據(jù)谷歌的說(shuō)法,「在訓(xùn)練期間,LaMDA 發(fā)現(xiàn)了一些將開(kāi)放式對(duì)話與其他形式的語(yǔ)言區(qū)分開(kāi)來(lái)的細(xì)微差別?!?/p>
《紐約時(shí)報(bào)》在 1 月 20 日的一篇報(bào)道中提到,谷歌創(chuàng)始人 Larry Page 和 Sergey Brin 上個(gè)月會(huì)見(jiàn)了公司高管,討論了 ChatGPT 可能對(duì)谷歌 1490 億美元的搜索業(yè)務(wù)構(gòu)成的威脅。谷歌發(fā)言人在一份聲明中表示:「我們繼續(xù)在內(nèi)部測(cè)試我們的 AI 技術(shù),以確保它有用且安全,我們期待盡快與外部分享更多經(jīng)驗(yàn)?!?/p>
另外一位頗具實(shí)力的玩家則是 Character AI,這家公司由 Transformer 論文作者之一 Noam Shazeer 創(chuàng)辦,逐漸為人熟知。
該公司推出的 AI 聊天機(jī)器人技術(shù)允許用戶與任何人聊天或進(jìn)行角色扮演,比如模仿伊麗莎白女王和莎士比亞等歷史人物。目前該技術(shù)是免費(fèi)使用的,Character 正在「研究用戶如何與之互動(dòng),然后再制定具體的創(chuàng)收計(jì)劃?!?/p>
傳百度將發(fā)布類似 ChatGPT 的聊天機(jī)器人
更能引起國(guó)內(nèi) AI 從業(yè)者關(guān)注的是,據(jù)路透社、彭博社等多家外媒報(bào)道稱,百度公司計(jì)劃在 3 月份推出類似于 OpenAI 的 ChatGPT 的人工智能聊天機(jī)器人服務(wù)。
消息人士稱,百度計(jì)劃在用戶提出搜索請(qǐng)求時(shí)整合聊天機(jī)器人生成的結(jié)果,而不僅僅是鏈接?!冈摴ぞ呱形疵?,將嵌入在主搜索服務(wù)中,用戶將返回對(duì)話風(fēng)格的搜索結(jié)果?!?/p>
在去年 12 月在一次內(nèi)部討論中,百度 CEO 李彥宏曾分享自己對(duì) ChatGPT 的看法:「把這么酷的技術(shù)變成人人需要的產(chǎn)品」才是最難的,希望百度新的一年「至少能有一個(gè)高成長(zhǎng)、有創(chuàng)新的業(yè)務(wù),真正的 above and beyond our expectation」。
而據(jù)《科創(chuàng)板日?qǐng)?bào)》1 月 30 日?qǐng)?bào)道,百度內(nèi)部確有推出類似 ChatGPT 聊天機(jī)器人的規(guī)劃,但具體時(shí)間并不精確。百度 CEO 李彥宏對(duì)于該項(xiàng)目的定位是「引領(lǐng)搜索體驗(yàn)的代際變革」。他在內(nèi)部指出,相關(guān)技術(shù)已達(dá)到臨界點(diǎn),百度在其中有較大的機(jī)會(huì)。
檢測(cè)利器:讓大型語(yǔ)言模型生成的文本無(wú)處隱藏
ChatGPT 的能力縱然強(qiáng)大,但同時(shí)它在學(xué)校作業(yè)、論文發(fā)表等領(lǐng)域的濫用已經(jīng)引發(fā)了人們廣泛的擔(dān)憂。因此,學(xué)界開(kāi)始探索檢測(cè) ChatGPT 等大型語(yǔ)言模型(LLM)生成文本的方法和工具。
馬里蘭大學(xué)幾位研究者對(duì) ChatGPT 等語(yǔ)言模型輸出的水印進(jìn)行了研究。在論文《A Watermark for Large Language Models》,他們提出了一種高效水印框架,水印的嵌入對(duì)文本質(zhì)量的影響忽略不計(jì),可以使用高效的開(kāi)源算法進(jìn)行檢測(cè),而無(wú)需訪問(wèn)語(yǔ)言模型的 API 或參數(shù)。
本文方法可以檢測(cè)到比較短的合成文本(少至 25 個(gè) tokens),同時(shí)使得人類文本在統(tǒng)計(jì)學(xué)上不可能被標(biāo)記為機(jī)器生成。
論文地址:https://arxiv.org/pdf/2301.10226v1.pdf
斯坦福大學(xué)幾位研究者在論文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,證明了從 LLM 中采樣的文本傾向于占據(jù)模型對(duì)數(shù)概率函數(shù)的負(fù)曲率區(qū)域。利用這一觀察結(jié)果,他們定義了一個(gè)基于曲率的新標(biāo)準(zhǔn),來(lái)判斷一段文章是否由給定的 LLM 生成。
研究者將他們的方法稱為 DetectGPT,它不需要訓(xùn)練單獨(dú)的分類器、收集真實(shí)或生成段落的數(shù)據(jù)集以及顯式地為生成文本加水印。DetectGPT 僅使用感興趣模型計(jì)算的對(duì)數(shù)概率和另一通用預(yù)訓(xùn)練語(yǔ)言模型(如 T5)生成段落的隨機(jī)擾動(dòng)。
結(jié)果發(fā)現(xiàn),DetectGPT 比當(dāng)前模型樣本檢測(cè)的零樣本方法更具辨別力,尤其是將 20B 參數(shù) GPT-NeoX 生成的假新聞報(bào)道檢測(cè)從最強(qiáng)零樣本基線的 0.81 AUROC 提升到了 0.95 AUROC。未來(lái)將公布代碼和數(shù)據(jù)。
DetectGPT 檢測(cè) GPT-3 生成文本的示意圖。
論文地址:https://arxiv.org/abs/2301.11305
除了以論文形式展現(xiàn)的檢測(cè)方案,也有個(gè)人推出了強(qiáng)大的檢測(cè)工具。比如一位來(lái)自 Hive AI、致力于 ChatGPT 檢測(cè)器研究的 ML 工程師,其方案能夠識(shí)別 ChatGPT、GPT-3 和其他流行 AI 引擎生成的文本。
從內(nèi)部基準(zhǔn)測(cè)試結(jié)果來(lái)看,該方案效果明顯優(yōu)于 GPTZero 和 OpenAI GPT2 Output Detector 等類似方法。在內(nèi)部數(shù)據(jù)集上,模型平衡準(zhǔn)確率 > 99%,而 GPTZero 的準(zhǔn)確率約為 60%,OpenAI GPT2 Output Detector 的準(zhǔn)確率為 84%。
Demo 地址:https://hivemoderation.com/ai-generated-content-detection
最后,GPTZero 也迎來(lái)了更新 ——GPTZeroX,一個(gè)專為教育者打造的全新 AI 檢測(cè)模型。該模型可以混合處理 AI 生成和人類文本,并突出顯示最有可能由 AI 生成的文本部分。此外構(gòu)建了一個(gè) pipeline 來(lái)處理 PDF、Word 和.txt 格式的文件批量上傳,從而輕松運(yùn)行多個(gè)文件。
Demo 地址:https://gptzero.substack.com/p/gptzerox
總之,隨著 AI 生成文本檢測(cè)工具的日益豐富和日加完善,ChatGPT 等大型語(yǔ)言模型在應(yīng)用時(shí)勢(shì)必會(huì)越來(lái)越正規(guī),幫助人們更高效地釋放 AI 的能力。
更多信息可以來(lái)這里獲取==>>電子技術(shù)應(yīng)用-AET<<