《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 業(yè)界動態(tài) > 除了秒天秒地的配置,小米10背后的自研AI技術(shù)更值得關(guān)注

除了秒天秒地的配置,小米10背后的自研AI技術(shù)更值得關(guān)注

2020-02-13
來源:搜狐科技
關(guān)鍵詞: 配置 小米10 自研

  2月13日,預(yù)熱許久的小米10終于正式登場。由于肺炎疫情,這場發(fā)布會采用了純線上直播的模式,但這絲毫不影響它極高的關(guān)注度。作為國內(nèi)首款驍龍865旗艦,小米10實(shí)現(xiàn)了自我突破,帶來了不少驚喜。

1.jpeg

  除了驍龍865處理器、LPDDR5內(nèi)存等亮眼的參數(shù)信息外,小米自研AI技術(shù)展現(xiàn)出的成果同樣值得關(guān)注,它們已經(jīng)滲透到小米產(chǎn)品上的各個角落,對相機(jī)、系統(tǒng)、語音等多個方面的使用體驗(yàn)都產(chǎn)生了深遠(yuǎn)的影響。

  小米AI語音,變得更強(qiáng)了!

  1、小米語音AI技術(shù)在快速普及

  2017年7月的一場小米發(fā)布會上,小米AI音箱正式發(fā)布,小米開啟了自研語音AI技術(shù)在市場上的試水。

  短短兩年多的時間,小米自研的語音AI技術(shù)已經(jīng)滲透到各個類型的小米產(chǎn)品中,除了智能音箱,小米手機(jī)、小米電視、小愛老師等小米產(chǎn)品都配備了“小愛同學(xué)”。集成了小米語音智能助理的設(shè)備,通過語音這種新交互方式讓產(chǎn)品使用起來更加便利。

2.jpeg

  語音交互解放了用戶的雙手,降低了學(xué)習(xí)成本、提升了用戶體驗(yàn),而且增強(qiáng)了產(chǎn)品的競爭力。

  2、小米10上的智能助理,更有看點(diǎn)

  目前來說,智能手機(jī)上的語音助手發(fā)出的語音都是人工合成的,基本不會提供個性化的服務(wù),實(shí)際使用起來難免感覺機(jī)械和不自然,和真人發(fā)出的聲音差距還是比較大的。

  而小米10上的一大驚喜就是配備了個性化語音合成服務(wù)。它采用了最新的合成技術(shù),用戶只需要在安靜環(huán)境下錄制少量的聲音樣本并上傳,服務(wù)器進(jìn)行識別、訓(xùn)練并建模后,就能獲得定制化的AI語音助手了。

3.jpeg

  別人手機(jī)的語音助理發(fā)出的語音千篇一律,而小米手機(jī)上的小愛同學(xué)卻能做到千人千音,感覺就像手機(jī)里有一個真人助理一樣。

4.jpeg

  3、AI語音技術(shù)上,小米展現(xiàn)了哪些功力?

  市面上主流語音合成技術(shù)有很多不足,具體表現(xiàn)為發(fā)出的語音過于機(jī)械,像機(jī)器人說話一樣,還有就是在中英文混合語音中,雙語切換的停頓節(jié)奏、過度感覺也不自然等。

  小米10上的個性化語音合成服務(wù),則瞄準(zhǔn)了這些問題進(jìn)行改進(jìn)。具體來說,它的實(shí)現(xiàn)過程可以分為這么幾步。

  首先,用戶要在安靜的環(huán)境下錄制目標(biāo)聲音;

  然后,系統(tǒng)會對采集到的聲音信息進(jìn)行降噪、檢錯等處理;

  接著,處理完的目標(biāo)聲音會被提取特征;

  最后,小米云端服務(wù)器將收集到的信息進(jìn)行在線模型訓(xùn)練、部署,生成語音合成引擎。

5.jpeg

  這個技術(shù)過程看起來比較清晰,但存在很多難點(diǎn)。例如,它對目標(biāo)聲音的數(shù)據(jù)質(zhì)量要求比較高,在線訓(xùn)練模型費(fèi)時費(fèi)力以及小數(shù)據(jù)量能否訓(xùn)練出滿意的效果。

  不過,小米已經(jīng)完美地解決了這些問題,模型訓(xùn)練耗時大大縮短,用戶完成整個過程只要20-30分鐘,此外,它的合成效果穩(wěn)定,甚至沒有英文語料的情況下,也能合成簡單的英文語音。

  AI加持,小米10把相機(jī)玩出了新花樣

  相機(jī)方面的提升是小米10系列最重要的賣點(diǎn)之一,1億像素、四顆后置鏡頭等都吸引了無數(shù)人的關(guān)注。除了硬件上瘋狂堆料外,小米10的相機(jī)也展現(xiàn)出了軟件算法上的功力。

  1、小米10換天更強(qiáng)了

  小米CC9的“一鍵換天”功能得到了很多用戶的歡迎,照片拍好后,只需要在編輯選項(xiàng)中輕輕一點(diǎn),就能把照片中的天空換成自己想要的效果,例如晴天、夕陽、暮光等。

6.jpeg

  這次小米10換天功能在之前的基礎(chǔ)上,新增了雨天和雪天,更為強(qiáng)大。從小米的演示對比來看,它在和各類第三方APP PK中大獲全勝,換天效果非常自然,基本能達(dá)到以假亂真的程度。

7.jpeg

  小米10換天功能背后,是小米在視覺成像技術(shù)上的持續(xù)投入。MIUI 10推出時,就帶來了AI自拍虛化的功能,單攝相機(jī)也能有人像虛化效果,就是通過出色的算法實(shí)現(xiàn)的。

  小米把之前自拍虛化的算法經(jīng)驗(yàn)和技術(shù)運(yùn)用在了換天功能上,標(biāo)注了數(shù)萬張實(shí)際拍攝的天空圖片進(jìn)行訓(xùn)練,并且優(yōu)化天空分割模型,最終達(dá)到了現(xiàn)在的驚人效果。不得不說,實(shí)際采集樣張,用AI技術(shù)來訓(xùn)練模型,相當(dāng)費(fèi)時費(fèi)力,需要長期投入大量的成本。

  當(dāng)然,這種算法對成像的幫助,也不是一般軟件優(yōu)化所能比的。其實(shí),憑借著出色的成像效果秒天秒地的谷歌Pixel系列,在相機(jī)算法上,也是通過實(shí)際樣張采集訓(xùn)練AI模型的思路。這方面,小米和谷歌想到了一起去。

  2、拍vlog也能一鍵搞定

  短視頻的蓬勃發(fā)展讓vlog流行起來,但一般人想要剪出很酷很精致的vlog并不容易。首先,視頻后期比圖片要復(fù)雜,而且vlog制作還涉及音樂、字幕、特效等。

  而小米已經(jīng)敏銳地意識到用戶的需求,投入了多個團(tuán)隊(duì)來幫助大家搞定入門vlog。簡單來說,它優(yōu)化了這么幾個方面。

  首先,自動運(yùn)鏡功能讓用戶不動手機(jī)也能有出色的效果,不需要學(xué)習(xí)滑軌、手搖等很專業(yè)的技能。不過具體實(shí)現(xiàn)過程中,技術(shù)難度不小。

8.png

  自動運(yùn)鏡時,視頻每一幀的角度要精準(zhǔn)匹配,還要對4K分辨率的數(shù)據(jù)做實(shí)時的縮放、轉(zhuǎn)場等計(jì)算,對算法的精度有很高的要求和考驗(yàn)。小米AI實(shí)驗(yàn)室通過算法優(yōu)化和調(diào)校,把CPU、GPU、解碼器等多個計(jì)算單元結(jié)合,“榨干”了手機(jī)的計(jì)算性能。

9.jpeg

  另外,語音轉(zhuǎn)字幕這個功能也值得點(diǎn)贊。給視頻手動加字幕非常麻煩,有了語音AI技術(shù)后,小米手機(jī)就能把錄制視頻里的語音自動轉(zhuǎn)為文本字幕,幫vlog制作者省了很多事情。

  3、文檔掃描這件“小事”,小米10做到了極致

  小米10相機(jī)上另外一個極具亮點(diǎn)的功能是“小米拍文檔”,它解決了手機(jī)文檔掃描過程中的諸多痛點(diǎn):邊框識別不準(zhǔn)、細(xì)節(jié)丟失、顯示不清晰、變形、陰影等。

  小米拍文檔給人印象比較深刻的是AI技術(shù)對文檔掃描這個功能的巨大幫助,比如說它的裁剪校正能力很強(qiáng),即使拍攝文檔的背景非常雜亂無章,也能精準(zhǔn)的定位到文檔邊界,并準(zhǔn)確地裁切和矯正文檔區(qū)域,將有干擾的多余元素去除。

  此外,很多時候,拍攝文檔的環(huán)境光學(xué)不理想,成像區(qū)域一部分很暗、一部分很亮,非常影響最終的掃描效果。小米拍文檔通過針對性的陰影消除技術(shù)來解決問題,讓文檔掃描的成功率大大提升。

10.jpeg

  技術(shù)創(chuàng)新鑄就了小米拍文檔的出色體驗(yàn),通過神經(jīng)網(wǎng)絡(luò)區(qū)分圖像中光照和陰影部分,利用邊緣算法幫助用戶對文檔進(jìn)行精確定位,并實(shí)際采集多樣化的文檔使用場景進(jìn)行訓(xùn)練優(yōu)化。

  值得一提的是,小米拍文檔完全由小米AI實(shí)驗(yàn)室武漢視覺團(tuán)隊(duì)獨(dú)立負(fù)責(zé)完成,疫情當(dāng)前,他們的工作和貢獻(xiàn)值得點(diǎn)贊。

11.jpeg

  小米自研AI技術(shù),值得更進(jìn)一步的期待

  這次的小米10發(fā)布會,讓我們看到了很多小米過去容易被忽視的地方,自研AI技術(shù)就是其中一個重要的部分。

  首先,小米10為代表的產(chǎn)品展現(xiàn)出了小米在自研AI技術(shù)上的強(qiáng)勁實(shí)力。不管是個性化語音合成服務(wù)、一鍵換天、vlog自動字幕等AI助力的具體功能,還是通過采集真實(shí)數(shù)據(jù)訓(xùn)練模型的AI研發(fā)思路,都讓我們看到了小米在自研AI技術(shù)上的用心。

  其次,研究AI技術(shù)的廠商很多,但像小米這樣精準(zhǔn)瞄準(zhǔn)用戶體驗(yàn)的,不太多見。前面我們提到的掃描文檔、制作vlog等功能,第三方應(yīng)用其實(shí)都能實(shí)現(xiàn),手機(jī)廠商一般不會在這些細(xì)節(jié)上下太多的功夫。

12.jpeg

  但這些看起來不起眼的細(xì)節(jié),都和用戶需求息息相關(guān)。小米把自研AI技術(shù)的成果都投入到這些領(lǐng)域,讓自家用戶能最直接地享受到AI技術(shù)發(fā)展的紅利。小米AI技術(shù)更加注重和用戶體驗(yàn)相關(guān)的場景落地,每個技術(shù)創(chuàng)新都能找準(zhǔn)用戶的實(shí)際需求、提升用戶體驗(yàn)。當(dāng)然,這種注重用戶體驗(yàn)的基因,從MIUI誕生開始就一直存在,現(xiàn)在刻入到了小米的AI技術(shù)研發(fā)中。

  此外,小米涉足的領(lǐng)域遠(yuǎn)不只手機(jī),家電、智能家居、PC等等行業(yè),都能看到小米活躍的身影。而小米的自研AI技術(shù),也不局限于給手機(jī)功能添磚加瓦。未來,我們有望看到小米自研AI技術(shù)未來在影像、語音、5G、IoT等多個領(lǐng)域的爆發(fā)成果,這非常值得期待。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。