《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 2023 的人工智能之年

2023 的人工智能之年

2023-12-29
來(lái)源:CSDN
關(guān)鍵詞: 人工智能 ChatGPT 圖像生成器

2023 年,人工智能領(lǐng)域無(wú)疑成為了行業(yè)的焦點(diǎn),帶來(lái)了深刻的變革。本文概述了這一年中最有影響力的大事件,這些事件預(yù)示著這一創(chuàng)新領(lǐng)域未來(lái)的發(fā)展方向。

人工智能的發(fā)展

不像去年的 ChatGPT圖像生成器的推出那樣革命性的創(chuàng)新,今年的人工智能發(fā)展雖然取得了顯著的成就,但主要是專注于現(xiàn)有技術(shù)的完善。盡管沒(méi)有帶來(lái)令人震驚的效果,真正的通用人工智能(AGI)仍然還有很長(zhǎng)的路要走,但今年是從過(guò)去的重大突破向更加強(qiáng)大的技術(shù)轉(zhuǎn)變的過(guò)渡期。為了更好地展示這一轉(zhuǎn)變,我們制作了一張基于時(shí)間線的路線圖:

1.png

圖像生成

Adobe Firefly:Adobe Firefly 和 Generative Fill 為多樣化的視覺(jué)內(nèi)容創(chuàng)作提供了強(qiáng)大的支持,這包括插畫、藝術(shù)概念設(shè)計(jì)和照片編輯。Adobe Firefly 被集成進(jìn) Photoshop,從而普及了 AI 技術(shù),使其得以廣泛服務(wù)于更多用戶。此外,文本效果功能的推出,也標(biāo)志著技術(shù)的一大進(jìn)步,使用戶能夠?qū)⑻囟L(fēng)格或紋理應(yīng)用于文字和短語(yǔ)。

Midjourney:Midjourney 的 V.5 模型在圖像生成領(lǐng)域是一個(gè)重要的里程碑,它展示了在效率、連貫性和高分辨率方面的顯著改進(jìn)。最新的 alpha 版本,Midjourney V.6,引入了額外的增強(qiáng)功能,如更精準(zhǔn)的提示跟隨、擴(kuò)展的模型知識(shí)庫(kù)和一定程度的文本繪制能力。

DALL·E 3:基于 ChatGPT 的 DALL·E 3 簡(jiǎn)化了圖像生成過(guò)程,減少了復(fù)雜提示工程的需求。此外,ChatGPT 還引入了一項(xiàng)幫助用戶根據(jù)反饋優(yōu)化提示,進(jìn)而調(diào)整圖像效果的功能。

Shutterstock.AI:Shutterstock,一家圖庫(kù)巨頭,通過(guò)集成 AI 功能,讓用戶可以把文字提示轉(zhuǎn)換成可授權(quán)使用的圖像。Shutterstock 采取了保護(hù)藝術(shù)家權(quán)益和報(bào)酬的措施,這在AI內(nèi)容創(chuàng)作領(lǐng)域是前無(wú)古人的,可以看作是 AI 道德發(fā)展的第一個(gè)重要舉措。

2.png

2007 年與 2023 年文本到圖像算法的演進(jìn)

視頻生成

Stability AI:Stability AI 推出了 Stable Video Diffusion,一個(gè)創(chuàng)新的開源視頻生成模型,已在 GitHub 上開源。它有望在 AI 生成視頻的各個(gè)領(lǐng)域發(fā)揮關(guān)鍵作用,這與 AI 圖像生成趨勢(shì) 是相輔相成的。

HeyGen:一家 AI 創(chuàng)業(yè)公司推出了一款集聲音克隆、嘴唇動(dòng)作調(diào)整和語(yǔ)言翻譯于一體的視頻工具。

Runway Gen-2:Runway 發(fā)布了 Gen-2 模型,用戶現(xiàn)可僅用文本提示、圖像或視頻輕松生成完整視頻。

Pika 和 Pika 1.0: 首次發(fā)布便吸引了五十萬(wàn)用戶,每周產(chǎn)生數(shù)百萬(wàn)視頻。隨后,Pika 1.0 的升級(jí)版 AI 模型讓用戶能夠更多樣化地創(chuàng)作和編輯視頻,風(fēng)格涵蓋 3D 動(dòng)畫、動(dòng)漫、卡通到電影等。

Meta 的 Codec Avatars:Meta 的 Pixel Codec Avatars(PiCA)模型使我們?cè)谝曨l通話中看到更逼真的 3D 人臉,使遠(yuǎn)程會(huì)議效果更接近真實(shí)。

文本生成

Bard 和 Gemini:Google 的 Bard 為聊天機(jī)器人領(lǐng)域引入了更貼近人類的情感和情緒。Google 在 Bard 聊天機(jī)器人中融入了基于多模態(tài)數(shù)據(jù)集訓(xùn)練的 Gemini,它被譽(yù)為目前“最強(qiáng)大”的 AI 模型,是 OpenAI 的 ChatGPT 最強(qiáng)的競(jìng)爭(zhēng)對(duì)手之一。

Grok:Elon Musk 的創(chuàng)業(yè)公司 xAI 展示了其對(duì) AI 開發(fā)的承諾,并可能與 OpenAI 展開競(jìng)爭(zhēng)。他們發(fā)布了 “Grok”,這是一款具有幽默感、反叛精神,并通過(guò) ?? 平臺(tái)獲得實(shí)時(shí)知識(shí)的聊天機(jī)器人。xAI 承諾,Grok 被設(shè)計(jì)來(lái) 回答其他 AI 系統(tǒng)拒絕的挑釁性問(wèn)題。

OverflowAI:Stack Overflow 的 OverflowAI 加強(qiáng)了知識(shí)整理能力,支持在 Visual Studio Code 和 Slack 中進(jìn)行 AI 驅(qū)動(dòng)的答案搜索。

Llama 2:Meta 發(fā)布了 Llama 2,這是其開源大型語(yǔ)言模型的最新版本,顯示了效率方面的提升。Meta 的精調(diào) LLM 在對(duì)話用例中經(jīng)過(guò)優(yōu)化,多數(shù)基準(zhǔn)測(cè)試中超過(guò)其他開源模型。

GPT-4:OpenAI 的 GPT-4 現(xiàn)在可以處理圖像輸入,生成標(biāo)題、分類,進(jìn)行聽說(shuō)交流,并支持 實(shí)時(shí)網(wǎng)頁(yè)瀏覽。OpenAI 擴(kuò)展了插件支持,推動(dòng)了開源生態(tài)系統(tǒng)的發(fā)展。GPT-4 代表了 OpenAI 在開發(fā)通用人工智能(AGI)路上的下一步。

Mistral 7B:Mistral AI 在今年 估值達(dá)到約 20 億美元,發(fā)布了 Mistral 7B,一款挑戰(zhàn) GPT-4 和 Claude 2 的大型語(yǔ)言模型。Mistral AI 強(qiáng)調(diào)其技術(shù)開放性,免費(fèi)提供模型的下載。

Mixtral 8x7B:Mistral AI 還推出了 Mixtral 8x7B,這是一個(gè)高質(zhì)量的稀疏專家混合模型(SMoE),擁有開放權(quán)重和總計(jì) 46.7B 的參數(shù),代表了在提高真實(shí)性和減少偏見方面模型開放性的新階段。

Yi-34B llm:今年估值達(dá)到 10 億美元,李開復(fù)的創(chuàng)業(yè)公司 01.AI 發(fā)布了 Yi-34B —— 一款開源神經(jīng)網(wǎng)絡(luò)模型,參數(shù)數(shù)量超過(guò)競(jìng)爭(zhēng)對(duì)手,強(qiáng)調(diào)了它在成本和效率方面的優(yōu)勢(shì)。



weidian.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。