圖像、語(yǔ)音成為近兩年最熱門(mén)的概念,所謂娛樂(lè)驅(qū)動(dòng)市場(chǎng),市場(chǎng)驅(qū)動(dòng)技術(shù)發(fā)展。在多元化的互聯(lián)網(wǎng)圈里“好玩”才能紅,而圖像與音像也從過(guò)去的美化處理往更高深的技術(shù)領(lǐng)域前進(jìn),在2016年,智能的語(yǔ)音識(shí)別和圖像識(shí)別將走進(jìn)普通人的生活中,它們會(huì)有哪些展望和動(dòng)作呢?讓我們所見(jiàn)所聽(tīng)的世界將變得生動(dòng)起來(lái)。
語(yǔ)音識(shí)別
語(yǔ)音識(shí)別技術(shù)雖然起源于1952年,但真正進(jìn)入消費(fèi)市場(chǎng)已經(jīng)是上世紀(jì)90年代的事了。目前語(yǔ)音識(shí)別有兩大發(fā)展方向,一個(gè)是純機(jī)械指令,基于產(chǎn)品定位而設(shè)計(jì)命令詞組,作為高效的輔助工具存在;一個(gè)是智能化理解語(yǔ)境,與人進(jìn)行互動(dòng)交流,并承擔(dān)部分處理工作。后者可能是語(yǔ)音識(shí)別未來(lái)的發(fā)展方向,但實(shí)際應(yīng)用中兩者并不沖突。簡(jiǎn)單精準(zhǔn)的機(jī)械指令讓工作更為純粹,沒(méi)必要做多余的計(jì)算動(dòng)作。而很多智能設(shè)備將語(yǔ)音作為“解放雙手”的第三類互動(dòng)形態(tài),就需要對(duì)人的語(yǔ)境進(jìn)行“理解”,相信很多朋友都玩過(guò)siri、GoogleNow、Cortana,也同時(shí)體驗(yàn)過(guò)這些語(yǔ)音助手“會(huì)錯(cuò)意”的賣萌行為。老羅在去年堅(jiān)果發(fā)布會(huì)上曾說(shuō)所有語(yǔ)音助手都是“偽”智能,雖然有點(diǎn)以偏概全,但目前語(yǔ)音對(duì)語(yǔ)境的識(shí)別確實(shí)還不夠智能,遠(yuǎn)不如機(jī)械指令效率。不過(guò)這些問(wèn)題隨著深度學(xué)習(xí)等AI領(lǐng)域技術(shù)的崛起將逐漸克服。
圖像識(shí)別
圖像識(shí)別從以圖搜圖到明星、物體識(shí)別,再到場(chǎng)景識(shí)別,甚至現(xiàn)在延伸到了視頻領(lǐng)域,給行業(yè)帶來(lái)了太多驚喜?,F(xiàn)在圖片內(nèi)容的價(jià)值已經(jīng)超越圖片本身,并且建立了從圖片到電商的商業(yè)模式。圖像識(shí)別一般針對(duì)畫(huà)面中一個(gè)對(duì)象做識(shí)別,比如大眾熟知的人臉、明星臉等識(shí)別技術(shù)已經(jīng)很成熟了,基本識(shí)別率達(dá)到90%以上。近年、服飾品牌的同款識(shí)別和風(fēng)景識(shí)別大行其道,為旅游行業(yè)和服飾行業(yè)創(chuàng)造了商機(jī)。圖像識(shí)別在視頻領(lǐng)域涌現(xiàn)出強(qiáng)大的應(yīng)用前景,新興起的互動(dòng)視頻技術(shù)video++已經(jīng)實(shí)現(xiàn)視頻中的人臉和服飾同款的識(shí)別,基于圖像識(shí)別技術(shù)發(fā)展視頻中的商業(yè)場(chǎng)景。另外瞳孔識(shí)別的研究已經(jīng)提上日程,不久的將來(lái),科幻片中所見(jiàn)即所得的情景不再是幻想。
深度學(xué)習(xí)
沒(méi)有基礎(chǔ)的技術(shù)實(shí)力,語(yǔ)音和圖像是好玩不起來(lái)的,而高級(jí)和低級(jí)的門(mén)檻就在深度學(xué)習(xí)的研究上。國(guó)內(nèi)雖然起步較晚,好歹在去年趕上了這波風(fēng)潮,包括圖像識(shí)別和語(yǔ)音識(shí)別在內(nèi),還有自動(dòng)駕駛、無(wú)人機(jī)、環(huán)境還原、機(jī)器人等項(xiàng)目,前段時(shí)間很火的谷歌AlphaGo在圍棋領(lǐng)域擊敗了歐洲二段冠軍,也是歸功于深度學(xué)習(xí)的算法支持??梢哉f(shuō)跟用戶有交互行為的產(chǎn)品,都開(kāi)始進(jìn)行深度學(xué)習(xí)AI的研究了。通過(guò)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí),語(yǔ)音識(shí)別變得更聰明, 實(shí)現(xiàn)快速精準(zhǔn)的識(shí)別動(dòng)作以外,還能對(duì)下一句的語(yǔ)境情緒進(jìn)行預(yù)測(cè),模擬真人對(duì)話。另外,語(yǔ)音識(shí)別大量運(yùn)用在翻譯市場(chǎng),爭(zhēng)取未來(lái)十年內(nèi)在專業(yè)翻譯領(lǐng)域完全替代人類。圖像識(shí)別過(guò)去大多是建庫(kù)識(shí)別,深度學(xué)習(xí)釋放了圖像識(shí)別的識(shí)別領(lǐng)域,把識(shí)別對(duì)象的年齡變化記憶下來(lái),實(shí)現(xiàn)動(dòng)態(tài)、多角度、不同光照變化下的識(shí)別。
應(yīng)用領(lǐng)域
安防市場(chǎng)是要求語(yǔ)音和圖像識(shí)別技術(shù)雙高的行業(yè)之一,未來(lái)將不局限在解鎖開(kāi)門(mén)等基礎(chǔ)功能,運(yùn)用圖像識(shí)別技術(shù),實(shí)現(xiàn)對(duì)象動(dòng)作識(shí)別,根據(jù)威脅等級(jí)進(jìn)行危險(xiǎn)性判斷,提前發(fā)出警報(bào)或報(bào)警。語(yǔ)音識(shí)別的運(yùn)用領(lǐng)域?qū)⒊叨嘶l(fā)展,近年來(lái)語(yǔ)音識(shí)別速度屢創(chuàng)新高,在翻譯市場(chǎng)、智能硬件助手、AI輔助,行車幫助等等方面實(shí)現(xiàn)價(jià)值。而娛樂(lè)領(lǐng)域的玩法變得多元化,像最近大熱的faceu,運(yùn)用了臉部識(shí)別跟蹤技術(shù),讓普通的自拍可以DIY。還有video++視頻開(kāi)放平臺(tái),可以對(duì)視頻中的明星、衣服同款進(jìn)行識(shí)別搜索,打開(kāi)了視頻到電商的入口。乘著去年SaaS的風(fēng)口,國(guó)內(nèi)外陸續(xù)出現(xiàn)了語(yǔ)音識(shí)別、圖像識(shí)別的技術(shù)開(kāi)放平臺(tái),從專業(yè)到普通領(lǐng)域,語(yǔ)音識(shí)別和圖像識(shí)別將在2016年做到技術(shù)全覆蓋。
大數(shù)據(jù)
數(shù)據(jù)收集是一個(gè)從被動(dòng)到主動(dòng)的過(guò)程,語(yǔ)音識(shí)別從接受指令變成了對(duì)指令使用頻率的分析,進(jìn)而形成用戶的習(xí)慣圖表。圖像識(shí)別亦然,針對(duì)用戶的識(shí)別頻率,分析出用戶的興趣畫(huà)像,這將給予廣告主帶來(lái)精準(zhǔn)廣告推送的商機(jī)。
結(jié)語(yǔ)
2016年將是“最好玩”的一年,語(yǔ)音識(shí)別和圖像識(shí)別讓我們跟智能設(shè)備之間的交互更自然,基于大數(shù)據(jù)的技術(shù)支持,讓識(shí)別變得主動(dòng)而聰明。語(yǔ)音識(shí)別和圖像識(shí)別將走進(jìn)普通人的世界,讓我們的生活更生動(dòng)。