智能語音交互對人們生活的影響正在潛移默化地發(fā)生。以前,人們還習(xí)慣于通過鍵盤和觸控屏操控智能設(shè)備,而三到五年內(nèi),科學(xué)家認(rèn)為人們或許可以隨時給身邊智能設(shè)備、機(jī)器人下達(dá)指令,幫助訂餐、訂票,乃至端茶遞水。
過去,機(jī)器對語音識別度不高,對自然語言的語義更難以理解,阻礙了語音交互的應(yīng)用。
但僅僅在一兩年內(nèi),隨著降噪技術(shù)、方言識別、“雙工多輪交互”技術(shù)、機(jī)器學(xué)習(xí)技術(shù)的發(fā)展、對語音的準(zhǔn)確識別,乃至對語義的準(zhǔn)確理解,讓機(jī)器準(zhǔn)確理解并執(zhí)行人類指令成為可能。
“以語音和語言為入口的認(rèn)知革命,將推動人工智能夢想成真。這是一條人工智能走認(rèn)知計算的必由之路?!庇煽拼笥嶏w研發(fā)的最新技術(shù),實時文字同傳了科大訊飛董事長劉慶峰的演講。
“(原來)我問一次北京明天天氣,然后可以再問上海明天天氣。而現(xiàn)在我可以問北京明天天氣,然后直接問‘上海的呢?’,它馬上就知道上下文相關(guān)。”劉慶峰說。
同時,在機(jī)器回答問題時,人類今后也可以隨時打斷,插入新的指令和話題。
方言、環(huán)境噪音,都可能影響語音識別準(zhǔn)確度,而劉慶峰表示,最新的科技,結(jié)合了方言、降噪、“雙工多輪”等技術(shù),2015年將語音識別準(zhǔn)確度由40%已提升至90%。
讓機(jī)器執(zhí)行人類語音指令,識別是首要前提,但接下來另一個重要課題是如何讓機(jī)器理解自然語言語義,而這也涉及更深層次“人工智能”。
過去60年中,人工智能掀起過兩波浪潮,從證明數(shù)學(xué)原理,到大規(guī)模神經(jīng)網(wǎng)絡(luò)出現(xiàn)。直到2006年,機(jī)器“深度學(xué)習(xí)”正式提出,并被證明可用于大規(guī)模神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練,海量的數(shù)據(jù)給予機(jī)器學(xué)習(xí)資源,卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)技術(shù),在語音交互方面逐步獲得應(yīng)用。