從未有一種產(chǎn)品,能像人工智能對話軟件ChatGPT一樣,在兩個月的時間內,吸引了上億的用戶。它所迅速引發(fā)的爭議波及范圍之廣,也創(chuàng)造了一個紀錄。最重要的是,不管你喜歡還是不喜歡它,都必須談論它。
一向AI技術領先的谷歌,也不得不跟隨,推出ChatGPT的競品。Bard在發(fā)布會上翻車了,它回答問題稱,美國的詹姆斯·韋伯太空望遠鏡拍攝了太陽系外行星的第一張照片,然而實際上是由歐洲南方天文臺的Very Large Telescope (VLT) 在 2004 年拍攝的。這樣一個 科技巨頭,也會犯這樣低級的事實性錯誤。
其實ChatGPT犯的低級錯誤,比比皆是,只是當人們對一件事物著迷的時候,其優(yōu)點和缺點是一體的,而且人們往往忽略后者。
今天,我們“不合時宜”地來聊一聊ChatGPT的十大不足。指出缺點,是為了改進。加油?。ū疚木幾g自Ali Borji的 A Categorial Archive of ChatGPT Failures)
一、推理能力
“推理”這個詞在文學作品和日常談話中都很廣泛地使用,但它是一個模糊的術語,可以指許多不同的東西。批判性思維、決策和解決問題都是關鍵的活動,它們在很大程度上依賴于推理。但像ChatGPT這樣的模型缺乏一個“世界模型”,這意味著它們沒有對物理世界和社會世界的完全理解,也沒有能力對概念和實體之間的聯(lián)系進行推理。他們只能根據(jù)在訓練中學到的模式來生成文本。
1.1 空間推理能力
空間推理是指理解和操縱我們周圍物理空間中的物體、人和地點之間的關系的能力。它包括在二維或三維空間中對物體進行可視化和心理轉換,以及識別模式、轉換和物體之間的關系??臻g推理技能對于許多任務和活動都很重要,比如導航,解決問題,以及可視化你腦海中的物體和結構。
圖1顯示了 ChatGPT努力完成空間導航任務的實例。
1.2 物理推理能力
物理推理是指在現(xiàn)實世界中理解和操縱物理物體及其相互作用的能力。它涉及到應用物理定律和概念來預測 和解釋物理系統(tǒng)的行為。物理推理是人類智能的一個關鍵方面,被用于各種智能領域,如工程、物理和機器人技術。在人工智能中,物理推理是一項具有挑戰(zhàn)性的任務,需要專門的模型來學習和推理物理系統(tǒng)。
圖2顯示了ChatGPT在物理推理失敗的一些例子。
1.3 時間推理能力
時間推理是指對事件及其時間順序進行推理和預測的能力。它涉及到理解事件之間的時間關系,事件的持續(xù)時間,以及事件與事件之間相對的時間。時間推理是人類智能的一個重要方面,它被用于調度、規(guī)劃和預測等各個領域。在人工智能中,時間推理是一項具有挑戰(zhàn)性的任務,需要專門的模型和算法來學習和預測事件序列的時間和時間。
圖3中的實例表明,ChatGPT不能從一個簡單的故事中推斷出正確的時間順序。
1.4 心理推理能力
心理推理是指理解和預測人類行為和心理過程的能力。它涉及到應用心理學理論、模型和概念來解釋和預測人類的行為和心理狀態(tài)。在人工智能中,心理推理是一項具有挑戰(zhàn)性的任務,需要專門的模型和算法,來學習和推理人類的行為和心理過程。
二、邏輯
邏輯學是數(shù)學和哲學的一個分支,它研究推理的原理。它處理正確推理的規(guī)則和方法,如三段論、歸納法和演繹法。邏輯是指確保參數(shù)是有效的、一致的、沒有矛盾的。
圖5和圖6中顯示了ChatGPT在邏輯推理中失敗的一些示例。
圖5. Q:邁克的媽媽有4個孩子;其中3個是路易斯、德雷克和瑪?shù)贍栠_。第四個孩子叫什么名字?--ChatGPT:如果沒有更多的信息,就不可能確定第四個孩子的名字。
圖6. Q:一所房子四面都有窗。一頭熊走過窗前。這頭熊是什么顏色的?---ChatGPT:基于現(xiàn)有信息,無法判斷熊的顏色!
三、數(shù)學和算術
ChatGPT計算數(shù)學表達式的能力有限。圖7、8和9顯示了ChatGPT在數(shù)學和算術方面失敗的一些例子。
圖7. ChatGPT無法簡化代數(shù)表達式
圖8
ChatGPT在回答“我6歲時,我的妹妹只有我一半的年齡”這個問題時犯了一個錯誤。現(xiàn)在我已經(jīng)70歲了,我妹妹多大了?”因為它提供的回答是73,但正確的答案是67。
四、事實性錯誤
ChatGPT的輸出在科學事實方面缺乏準確性。它有時缺乏對基本事實的知識,它提供的信息可能看起來可信,但最終被證明是不正確的,Bard在發(fā)布會現(xiàn)場的翻車事件,就是一個很好的例子。圖10和圖11顯示了ChatGPT所犯下的其他兩個令人啼笑皆非的事實性錯誤。
圖10. 一個月竟有40多天?。。?!
圖11. Q:英寸、公斤、厘米、碼,其中哪個不屬于其他三個的范疇? -- ChatGPT: “碼”。因為“碼”是長度單位,其他三個都是質量單位。
五、偏見和歧視
人工智能帶來的倫理挑戰(zhàn)是巨大的,其中最重要的一個是偏見問題。語言模型中的偏見是指生成的語言輸出中出現(xiàn)的系統(tǒng)性不準確或刻板印象,這些數(shù)據(jù)被訓練數(shù)據(jù)所影響,并反映了數(shù)據(jù)中存在的社會和文化偏見。這些偏見可以以多種方式影響語言模型,如延續(xù)刻板印象,造成誤解,或傳播有害和虛假的信息。
六、幽默
幽默是一種有趣或滑稽的品質,通常通過娛樂或讓人大笑的言語或行為來表達。它可以采取多種形式,如笑話、諷刺、諷刺或好玩的行為,它的意義可以根據(jù)文化背景和個人品味而有很大的不同。幽默通常包括使用幽默技巧,如雙關語、文字游戲和荒謬,來喚起觀眾的反應。這是一種復雜而微妙的人類交流形式,對機器人,即使是最先進的機器人,也是一個重大的挑戰(zhàn)。
ChatGPT說笑話的效果如何?
七、寫代碼
ChatGPT擅長處理一些編程問題,但有時會產(chǎn)生不準確或不那么優(yōu)質的代碼。雖然它有了編寫代碼的能力,可以幫助完成諸如生成通用函數(shù)或重復代碼等任務,但它不能完全替代人類開發(fā)人員。
圖14顯示了ChatGPT所犯的一些編碼錯誤。例如,盡管ChatGPT能夠在Python中正確識別操作符優(yōu)先級,但它在語句中生成了一個錯誤的答案。
八.句法結構、拼寫和語法
ChatGPT擅長于語言理解,但偶爾仍然會出現(xiàn)錯誤。
圖15. 當被要求以s為結尾造句時,ChatGPT兩次都答非所問了。
九、自我意識
自我意識是指認識到自己是一個獨立于他人的個體,并理解自己的思想、感受、個性和身份的能力。它包括能夠改變自己的思想、情感和行為,并理解它們如何影響一個人的行為和與他人的互動。
圖16的例子顯示,ChatGPT的自我意識能力亟待提升,它并不清楚自己的體系結構,包括模型圖層和參數(shù)。
圖16
十、其他
除前述不足之外,ChatGPT在以下方面的表現(xiàn)可能也不盡如人意,包括:
1. ChatGPT在使用習語方面的拙劣表現(xiàn),讓人輕易察覺到它的非人類身份。
2. 由于ChatGPT缺乏真實的情感和思想,因此它無法像人類那樣創(chuàng)造出能與人們產(chǎn)生情感共鳴的內容。
3. ChatGPT雖能很好地濃縮主題內容,但無法提供獨特的視角。
4. ChatGPT的答案往往過于全面和冗長,從多個角度處理一個主題,當需要給出一個直接的答案時,可能無法勝任。
5. 世界上沒有兩片相同的葉子,世界上也沒有兩個相同的人。ChatGPT缺乏這種個體差異性,而且往往過于字面化,在某些情況下導致了某些信息的缺失。例如,它的回答通常會嚴格地框定在所問到的問題之中,而人類的回答往往會各種各樣,并很有可能將話題轉移到其他主題上。
6. ChatGPT努力保持一種中立的立場,而人類在表達觀點時則往往有傾向性。
7. ChatGPT的回答在本質上往往是正式的,因為它的編程避免了非正式的語言。相比之下,人類傾向于使用更隨意和熟悉的表達方式。
8. 如果ChatGPT被告知它的答案是不正確的,它可能會通過道歉,并糾正自己的答案,但也有可能保持其原來的答案。