《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > 從算法到芯片,離線語音的花式落地

從算法到芯片,離線語音的花式落地

2019-09-16
關(guān)鍵詞: 算法 芯片

640.webp.jpg

  在這場語音 AI 的造芯之路上,誰將 C 位出道?

  - shenzhenware -

  與中國的家庭不同,歐美國家對于隱私的問題格外的注重。

  在剛剛結(jié)束的 IFA 展上,我們也看到國外的許多廠商對于在家電設備上安裝智能語音助手并沒有那么感冒,畢竟通過互聯(lián)網(wǎng)廠商的系統(tǒng)連接云端服務,也就意味著設備要實時在線,并且用戶數(shù)據(jù)要實時共享。同時,實時在線實時監(jiān)聽,也就意味著更多的能耗,盡管對于消費用戶來是微乎其微,但系統(tǒng)要支持 7x24 小時的 Always On,對于軟硬件性能都會有更高的要求。

  但這并不意味著家電廠商對于語音交互方式的排斥。相反,在原有的觸控或按鍵等交互方式的基礎上,在設備本地增加基本的語音識別和控制功能,在特定場景用戶需要的時候,再提供恰到好處的服務,這對于每隔一段時間都需要疊加新功能新概念的家電設備來說,是錦上添花的事兒。

640.webp (1).jpg

  有需求就有商機,基于邊緣計算的離線語音,逐漸興起。

  1. 離線語音,沒那么簡單

  離線語音解決的基本問題包括本地語音識別、本地計算、部分的數(shù)據(jù)訓練。相應的,對于硬件的要求就是低功耗、低成本、快速響應。

  Google 曾在 6 月開發(fā)者大會上,推出了 Local Home SDK,其離線語音采用的是端云協(xié)同的方式,具體做法是:通過 SDK 和 API 接口,允許開發(fā)者在上面為智能設備建立新的附加執(zhí)行路徑,使得 Google 的智能音箱設備能以 JavaScript 腳本運行這套協(xié)議和邏輯,并通過局域網(wǎng)與設備實現(xiàn)通訊、本地控制。而在本地執(zhí)行路徑失敗的情況下,云端將作為回退執(zhí)行路徑來處理指令。

640.webp (2).jpg

  盡管 Google 有大批的開發(fā)者,但這套 Local Home SDK 對于開發(fā)者的挑戰(zhàn)還是很大。已經(jīng)為上百種家電設備開發(fā)過離線語音的啟英泰倫的工程師,從云到端的,為我們分析了語音開發(fā)的難度。

  云端語音開發(fā),其核心是應用各大云端平臺提供的接口,通過調(diào)用服務完成語音識別功能。這需要工程師明白接口調(diào)用及服務的要求,也需要熟悉各種操作系統(tǒng)。同時,云端語音最終需要終端提供待識別的語音數(shù)據(jù),也需要工程師了解語音采集的過程和降噪技術(shù),才能做成性能出眾的產(chǎn)品,這本身就有難度。

  而對于終端語音開發(fā),雖然有廠家提供了如黑盒子一樣的離線語音技術(shù),做成類似 Google Local Home SDK 發(fā)布,但最終也需要工程師會編程,懂硬件結(jié)構(gòu),懂麥克風和語音采集降噪的技術(shù),這些都有不小的挑戰(zhàn)。

  特別的,語音交互類的設備本身在產(chǎn)品形態(tài)上差異化很大,使用場景也呈現(xiàn)出碎片化的特點,要為用戶提供自然的本地語音交互體驗,就要對不同的產(chǎn)品做出不同的語音控制命令,這些都需要通過修改代碼實現(xiàn),工作量可想而知。再進一步的讓設備達到用戶所需要的「極致」體驗,還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師??偠灾?,是有不少開發(fā)門檻和開發(fā)成本的。

  2. 芯片設計,沒那么簡單

  其實像 Google 這樣在離線語音交互方向上探索的算法公司有很多,為了讓算法更好的支持終端,他們正在掀起一輪「造芯」運動。

  將算法集成在芯片中,用芯片實現(xiàn)其算法的商業(yè)價值,在產(chǎn)業(yè)上游卡位,閑暇之余再發(fā)幾款終端消費硬件獲得市場關(guān)注。不得不說,這樣的戰(zhàn)略規(guī)劃可謂是相當帥氣,尤其是在 5G+IoT 的黎明到來之際,市場前景一片大好。

  這也凸顯了算法公司對于自身優(yōu)勢和短板的認識。展開來說,他們對于語音識別、語義理解、知識圖譜、數(shù)據(jù)訓練等軟件和算法的理解更強,但因為軟件業(yè)務本身太「輕」,在商業(yè)上很難實現(xiàn)快速落地,因此他們向「云端芯」一體化方向發(fā)展,將業(yè)務延伸到芯片甚至硬件。

  但算法公司做芯片,普遍面臨的挑戰(zhàn)是:龐大的數(shù)據(jù)和運算量導致成本和功耗都非常大,將數(shù)十個中央處理器才能運算的數(shù)據(jù)通過一個端上的一顆小小的芯片完成(通常是基于通用芯片的智能語音控制模組),技術(shù)上還存在難度。具體體現(xiàn)在:

  首先,芯片設計周期長,從預研到進入銷售期再到盈利,少說也要兩三年,因此必須做到提前卡位。

  其次,芯片設計不同于軟件,可以通過快速迭代逐漸優(yōu)化。芯片設計最重要的就是產(chǎn)品定義,如果一開始定義不好,等設計完成后發(fā)現(xiàn)缺乏競爭力再改,就算是老羅這樣的外行拿著互聯(lián)網(wǎng)思維那一套跟你拍桌子,也是無濟于事。

  再次,語音 AI 芯片的集成化和工程化要求很高,開發(fā)難度在前面我們已經(jīng)論述。

  最后,眾所周知,芯片必須依賴大規(guī)模出貨才能賺到錢,這也就決定了語音 AI 芯片必須下沉到智能家居、小家電、兒童故事機等出貨量較大的設備市場,才能實現(xiàn)高凈值。而與這些設備商打交道,明顯的,芯片商比算法商更深諳其道。

640.webp (3).jpg

  3. 芯片公司,是怎么做的?

  那么離線語音這件事兒,如果芯片公司自己做會怎樣?

  我們舉個例子,看一下在語音 AI 芯片領(lǐng)域展露頭角的啟英泰倫的造芯歷程。

  早在 2015 年,行業(yè)內(nèi)關(guān)于本地端邊緣計算的概念還沒有興起,擁有 16 年芯片研發(fā)經(jīng)驗、雙棲「家電+芯片」多年、曾是原海信信芯技術(shù)副總、長虹 IC 部門總經(jīng)理的何云鵬,在成都高新區(qū)成立啟英泰倫,專門從事基于深度學習的語音識別芯片及配套算法引擎的研發(fā)。啟英泰倫在 2016 年推出了首款支持深度神經(jīng)網(wǎng)絡的人工智能語音芯片 CI1006,次年開始量產(chǎn)。

640.webp (4).jpg

  在芯片設計方面,CI1006 采用的是可以實現(xiàn)更好的能耗比的 ASIC 架構(gòu)。而行業(yè)里的采用 FPGA 架構(gòu)的芯片公司,如 Quicklogic,其低功耗多核語音芯片的成本就非常高,這對于很多出貨量大、對成本斤斤計較的設備商,是「不劃算」的。

  同時,ASIC 架構(gòu)主要瞄準消費電子產(chǎn)品,晶體管會根據(jù)算法定制,因此不會出現(xiàn)冗余,計算效率高,性能高,功耗低。

  總而言之,「ASIC 架構(gòu)更像是工廠開模,雖然前期開發(fā)時間長,上市相對比較慢,但非常適合量產(chǎn)。一旦量鋪開了,均價也會快速降下來?!购卧迄i說。

640.webp (5).jpg

  而在算法方面,啟英泰倫則是結(jié)合芯片定制,功耗可控點更高。比如針對竊聽安全風險的問題,啟英泰倫的做法是這樣的:利用近數(shù)據(jù)端的邊緣結(jié)點,直接對數(shù)據(jù)源進行處理,實現(xiàn)對一些敏感數(shù)據(jù)的保護與隔離;端節(jié)點可以僅接收來自云計算中心的請求,并將處理結(jié)果反饋給云端。

  啟英泰倫的語音芯片內(nèi)置了自主研發(fā)的腦神經(jīng)網(wǎng)絡處理器 BNPU,支持本地大詞匯量的語音識別。通常本地語音識別詞匯量非常小,本地數(shù)據(jù)訓練受限,而 CI1006 可以有效的解決本地語音識別和控制。

640.webp (6).jpg

  4. 設備商,應該如何選擇?

  何云鵬幫我們分析了家電廠商的一般做法和存在的問題:通常情況下,如果一家廠商想要給自己的產(chǎn)品增加語音控制功能,就要去找軟件算法商、芯片公司、方案商,甚至是聲學方面的硬件商。前期調(diào)研周期長不說,資源即使強大,也只能成功對接到幾十家的有效支持。這種模式無法支持家電廠商全系大規(guī)模智能化的市場需求。

  而家電廠商如果通過算法商基于普通芯片定制開發(fā)語音識別模組,那么算法商需要從芯片原廠選定芯片,將云端算法移植到芯片上,并進行調(diào)試。然后還需要底層硬件開發(fā)公司將整體方案做成模組板卡,提供給家電廠商。這種實現(xiàn)方式鏈條環(huán)節(jié)多,周期長,家電廠商還要支付額外的開發(fā)費用和授權(quán)費用,這對于苛求毛利率到分的設備商來說,是必須要考慮的現(xiàn)實問題。

  如何判斷語音 AI 芯片是否靠譜呢?或許這里提煉的幾個特征,為家電和設備廠商們的評估提供了維度:

  低成本、低功耗、低時延

  云邊端一體化

  芯片規(guī)格和制式可定制

  9 月 19 日,啟英泰倫將在深圳舉辦主題為「聲無界·芯未來」的新品發(fā)布會,推出新一代語音芯片和語音 AI 開發(fā)平臺,旨在進一步降低產(chǎn)品智能化開發(fā)和成本門檻 ,助力終端設備商更高效率、更低成本實現(xiàn)智能化。現(xiàn)場將設立新技術(shù)體驗及專屬洽談區(qū),期待行業(yè)精英參與。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。