語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài)。
越來越多的人開始確信,語音的徹底主流化已經(jīng)不是一個需要討論的問題,只是一個時間和習慣轉移的問題。
語音交互的價值,在過去幾年的發(fā)展中,逐步走出單純“控制方式”的狹隘理解,并成為業(yè)內(nèi)人眼中的“新入口”,有機會 連接全新的產(chǎn)業(yè)生態(tài)。
作為被連接的核心硬件之一,汽車領域語音交互平臺的爭奪戰(zhàn)也已進入白熱化狀態(tài)。車載環(huán)境,極有可能優(yōu)先成為用戶固化語音交互操作習慣最典型場景。
競爭仍在繼續(xù)。然而,隨著核心技術的產(chǎn)業(yè)環(huán)境的推進,關于車載語音交互平臺的競爭,已經(jīng)從自然語言處理(NLP)+自然語言理解(NLU)引擎能力的競爭,衍生向數(shù)據(jù)和計算能力+資源整合能力的下一步競爭。
在這個過程中,誰將勝出?
語音平臺有望成為“新操作系統(tǒng)”
2014年11月6日,亞馬遜第一款智能音箱Echo在官網(wǎng)悄然上線。借助產(chǎn)品本身的軟硬件實力,智能家居配套設備的逐漸成熟,以及開發(fā)者針對Alexa平臺開發(fā)的數(shù)千種服務,Echo短期內(nèi)名聲大噪,在不到兩年的時間內(nèi)實現(xiàn)了超過千萬臺的銷量。
今年6月,蘋果開發(fā)者大會期間,蘋果公司CEO蒂姆·庫克正式揭開了HomePod的面紗,這款姍姍來遲的語音智能音箱,承載了蘋果對抗亞馬遜Echo的期望。
蒂姆·庫克很清楚,表面看起來一場智能音箱“卡位戰(zhàn)”的背后有著更深層的競爭:在人工智能(AI)迅速發(fā)展的大背景下,語音平臺有機會成為物聯(lián)網(wǎng)時代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài),包括各類服務應用、各類硬件。
各類硬件中,除了智能家居設備外,汽車產(chǎn)品對語音平臺的需求最顯而易見。并且,由于目前用戶所習慣的點擊、滑動等觸摸型交互方式在車載環(huán)境下存在潛在安全隱患且并不完全好用,因此語音這一天然適應車載環(huán)境的交互方式,成為車內(nèi)固定操作習慣的可能性非常之大。
目前,包括美國語音技術巨頭Nuance、國內(nèi)相關公司科大訊飛、云之聲、思必馳、出門問問等等,均在車載語音交互領域進行探索和布局。例如,在去年阿里上汽的首款產(chǎn)品榮威RX5上,Nuance的車載語音交互系統(tǒng)得到搭載、科大訊飛與奇瑞自2015年起始終在密切合作、出門問問與大眾汽車集團(中國)成立合資公司。一時間,車載語音交互站上了時代的風口。
亞馬遜第一款智能音箱Echo
車聯(lián)網(wǎng)支撐車載語音交互發(fā)展
事實上,車載語音交互的發(fā)展,與車聯(lián)網(wǎng)近些年的快速發(fā)展密不可分。
在業(yè)內(nèi)常用的定義中,中國車聯(lián)網(wǎng)如今走過了三個典型發(fā)展歷程:
第一階段:以最初的Onstar、Gbook為代表,核心是圍繞呼叫心中的導航等功能。
第二階段:前裝+后裝的“亂戰(zhàn)階段”,前裝淺嘗輒止,后裝見縫插針,一時間車聯(lián)網(wǎng)概念開始廣泛傳播,但真正好用的產(chǎn)品不多。
第三階段:以阿里上汽合資為代表,車廠合資模式下的資源產(chǎn)品深度開發(fā)和資源強強整合,開始在實際使用層面落地一些好用的前裝車聯(lián)網(wǎng)產(chǎn)品和服務。
對應來看,車載語音交互也經(jīng)歷過三個發(fā)展階段,如果用體驗層面的關鍵詞來描述:
第一階段好像“吐字”:例如當時出租車報價器中一個字一個字的播報,是固定程序的單向輸出,并不是真正意義上的車在語音交互。
第二階段在于“識別”:用戶在這一階段可以進行語音輸入,但總被一件事情困擾,系統(tǒng)常常“聽不太清、聽不太懂”。
第三階段則是“可用”:語音系統(tǒng)開始聽得清也聽得懂,并且用戶能夠通過該系統(tǒng)體驗一些服務。
不難看出,車載語音交互目前的發(fā)展階段與車聯(lián)網(wǎng)整體的發(fā)展階段處于平行位置,位于起步初期,從“可用”到“好用”的過程中。值得注意的是,和以往任何時間節(jié)點都不同,隨著人工智能相關技術的迅速發(fā)展、產(chǎn)業(yè)鏈資源的整合意愿增強、用戶行為習慣的逐步養(yǎng)成,車載語音交互體驗正在進入提升快車道。
量產(chǎn)車搭載語音交互產(chǎn)品的比例逐年提升
優(yōu)質車載語音交互體驗是怎樣的?
云之聲CEO黃偉曾和車云談起蘋果Siri,過去大家都把Siri想象語音助理,助理應該什么都會做,什么都能做,但實際上它做的并不好,“希望用一個相對來說有限的人工智能解決非常開放的需求,這本身很難做到”。
但是,隨著時間的推移和技術的發(fā)展,用戶在車內(nèi)這一“相對比較封閉的開放環(huán)境中的開放需求”,將很快被滿足。在研發(fā)層面,各方考慮的早已不是如何讓系統(tǒng)更清晰的識別用戶的語音指令,而是如何更好的接受指令、更細的理解指令、更快的做出反饋。
更重要的是,越來越多的相關開發(fā)者意識到,語音只是工具,需要連接相應的服務和應用。這些服務和應用為語音而生,目的不是推給用戶一堆信息,讓用戶自己尋找答案,而是直接幫助用戶把事情辦成。
車內(nèi)語音系統(tǒng),正在成為一位真正的“助理”。一些實際的成果也正在落地。
去年底,科大訊飛發(fā)布智能車機系統(tǒng)——飛魚助理。該系統(tǒng)搭載的語音交互支持多輪對話和中途打斷,不用多次喚醒就能調用導航、音樂、撥打電話等功能??拼笥嶏w智能汽車事業(yè)部負責人劉俊峰向車云展示了兩個場景。
場景一、聯(lián)系上下文對話。
用戶:“我想聽甜蜜蜜”
系統(tǒng):請欣賞鄧麗君演唱的《甜蜜蜜》
用戶:“試一試鹿晗唱的”
系統(tǒng):請欣賞鹿晗演唱的《甜蜜蜜》
用戶:“我想聽他和陶喆合唱的”
系統(tǒng):“請欣賞鹿晗陶喆的合唱歌曲《請到長城來滑雪》”
場景二、語音糾錯和隨時打斷。
用戶:打電話給黃老師
系統(tǒng):好的,即將為您接通……(數(shù)秒等待后接通“訊飛黃老師”)
用戶:(打斷)不對,是黃昕黃老師
系統(tǒng):好的,即將為您接通黃昕(數(shù)秒等待后接通“黃昕”)
用戶:確定
在車云看來,上述場景相比現(xiàn)有車載語音產(chǎn)品而言,主要優(yōu)化點在于“接收信息+反饋信息”層面,這屬于產(chǎn)品優(yōu)化的第一層。
在進一步的發(fā)展中,隨著基礎能力的提升,服務的整合能力將成為關鍵能力,車載語音系統(tǒng)不僅可以聽懂、反饋,更可以“預判+執(zhí)行”。 語音交互只是手段,不是目的,交互的目的是為了讓機器更好地完成任務。
目前,在博泰集團最新一代的車機產(chǎn)品中,基于周邊服務的整合,語音系統(tǒng)已經(jīng)可以開始預判用戶的需求,并幫助用戶實現(xiàn)需求。具體而言,例如用戶語音搜索目的地電影院,那么系統(tǒng)除了快速彈出電影院推薦、結合導航時間進行場次推薦外,還能直接幫助訂票、選位。
再以一個場景舉例:
用戶:“幫我找個新街口附近看電影的地方”
系統(tǒng):“為你找到如下影院……請問要選哪一個?”
用戶:“萬達那個”
系統(tǒng):“即將導航至南京萬達國際電影院……為你推薦近期的高分影片,《戰(zhàn)狼2》9.5分,萬達國際電影院最近的場次17:10開始,票價35元,根據(jù)當前路況正好可以趕到,是否需要提前訂票選座?”
用戶:“好的,我要最后一排中間的2個位置”
系統(tǒng):“該場次最后一排中間區(qū)域已滿,更換為倒數(shù)第二排中間2個位置可以嗎?”
用戶:“也行”
系統(tǒng):“支付成功,萬達國際電影院4號廳9排6號與7號,訂票信息與取票二維碼已發(fā)送至手機,到達影院后可以用二維碼在自動取票機上快速取票,祝你觀影愉快”
這當然還不是全部。當語音系統(tǒng)與汽車本身結合更緊密時,還會帶來其他層面的想象力。例如用戶直接通過語音控制車輛,設定車內(nèi)空調的溫度、開關天窗、啟動汽車、開關車門等等。當然,這需要車企層面更高的開放度。目前,大眾、福特、現(xiàn)代、寶馬等公司均已不同深度的嘗試引用亞馬遜Alexa語音服務運用。
核心競爭點在于數(shù)據(jù)和計算能力
上文提到了車載語音系統(tǒng)在未來不久能聽懂,反饋,亦可以“預判+執(zhí)行”。那么一個問題隨之而來,想要做好這些,車載語音系統(tǒng)需要提升哪些核心能力?
車云將該問題拋給了多位語音行業(yè)的專家,各方給出的結論比較一致——前期在于自然語言處理(NLP)+自然語言理解(NLU)引擎的能力,后期在于數(shù)據(jù)和計算能力+資源整合能力的提升。
更具體的說,NLP+ NLU引擎的搭建,能夠幫助系統(tǒng)聽清并聽懂大部分的語音,但語音太過復雜,同樣的句子甚至在不同的情景下都可以表達不同的意思,這就需要系統(tǒng)不斷的錄入數(shù)據(jù),自學習,并擁有極強的計算能力以處理大數(shù)據(jù)。此外,就好像上文提及,語音交互只是手段,不是目的,交互的目的是為了機器更好地完成任務,因此與亞馬遜Alexa平臺一樣,車載語音交互平臺同樣需要整合各種為語音而生的原生服務及應用。
這讓車云想起阿里上汽打造榮威RX5的例子。阿里巴巴技術委員會主席王堅曾告訴車云,實際上YunOS操作系統(tǒng)做的最成功的事情,是作為重要的載體和介質,把阿里云的計算能力帶上了車,包括CPU的運算能力,還包括存儲能力、傳感能力等等。這是最底層的能力,也是最重要的能力。
上汽與阿里的合作從效果上看非常成功。圖為:阿里巴巴董事局主席馬云(右)、上汽集團董事長陳虹(左)
事實上,王堅在車載系統(tǒng)上的思考,和業(yè)內(nèi)現(xiàn)階段業(yè)內(nèi)在車載語音交互上的思考,異曲同工。
以博泰的思考為例。7月6日,博泰與百度達成合作,將在DuerOS開放平臺、百度云,以及阿波羅計劃方面建立深度合作關系。博泰集團創(chuàng)始人及董事長應宜倫明確表示,此次合作的一個關鍵點,就在車載語音交互層面。
一方面,基于百度云的強計算能力,車載語音交互產(chǎn)品可以實現(xiàn)實時更改與聆聽,速度提升多倍。打個比方,如果此前是一臺計算機包辦“輸入、理解、輸出”工作,那么計算能力提升后,則是三臺計算機,一臺“輸入”,一臺“理解”,一臺“輸出”,三臺平行處理。
另一方面,百度最寶貴的資源就是數(shù)據(jù),其中一些對于出行而言有很大價值,包括個人習慣和生活經(jīng)驗等,如果將這些數(shù)據(jù)進行結構化,緩存到可以被快速調用的云端區(qū)域。假設用戶在車內(nèi)通過語音提出相關問題,則這些數(shù)據(jù)便可實時發(fā)揮價值。這可以被定義為車載語音平臺聽清、聽懂后,直接解決問題的能力。
過去常有人說,車載語音交互技術發(fā)展將會是一個緩慢發(fā)展過程。現(xiàn)在看來,至少這一進程比預期來得要快。并且,隨著核心競爭點的逐步轉移,聚焦在車載語音交互的領域,大玩家之間聯(lián)盟只會越來越緊密。