91短视频官方下载,人妻无码专区一区二区三区

你的耳朵真的靈敏嗎？Goodfellow等人提出不可察覺的魯棒語音對抗樣本

日期： 2019-03-30

關鍵詞： 圖像領域自動語音 ASR 機器學習

圖像領域的對抗樣本對人類來說難以區(qū)分，但語音識別領域的對抗樣本卻往往是可以察覺的，而且聽起來非常明顯。在本文中，Ian Goodfellow 等人提出了用于自動語音識別體統(tǒng)的針對性對抗樣本，這些樣本不易被人類察覺，而且非常魯棒。

微信圖片_20190330191325.jpg

對抗樣本是由攻擊方專門設計的輸入，其目的是使機器學習算法產(chǎn)生錯誤分類。最初的對抗樣本研究主要集中于圖像分類領域。為了將神經(jīng)網(wǎng)絡中一般對抗樣本的性質與僅適用于圖像的對抗樣本的性質區(qū)分開來，研究不同領域的對抗樣本非常重要。

實際上，從強化學習到閱讀理解再到語音識別領域都存在對抗樣本。本文主要研究的是語音識別領域的對抗樣本，表明任何給定的源音頻樣本都可能受到輕微擾動，因此自動語音識別系統(tǒng)（ASR）會把音頻轉錄為任何不同的目標句子。

到目前為止，ASR 系統(tǒng)的對抗樣本和圖像領域的對抗樣本主要有兩個不同之處。

首先，圖像領域的對抗樣本對人類來說難以區(qū)分：在不改變 8 位亮度表征的情況下生成對抗樣本是可能的。相反，ASR 系統(tǒng)的對抗樣本通常是可以察覺的。雖然引入的擾動幅度通常很小，但聽起來很明顯，附加擾動是存在的。

其次，圖像領域的對抗樣本主要在物理世界發(fā)揮作用（例如在給它們拍照時）。相比之下，ASR 系統(tǒng)的對抗樣本還不能在這種由揚聲器播放并由麥克風錄制的無線環(huán)境中發(fā)揮作用。

在本文中，研究人員改善了 ASR 系統(tǒng)中對抗樣本的構造，開發(fā)了不可察覺的對抗樣本，其能力可以媲美圖像類對抗樣本，朝著穩(wěn)健的對抗樣本邁出了一步。

為了生成不可察覺的對抗樣本，研究人員沒有選擇對抗樣本研究中廣泛使用的常用 l_p 距離度量。相反，他們使用了聽覺掩碼（auditory masking）的心理聲學原理，并且僅在人類聽不到的音頻區(qū)域添加了對抗擾動，即使這種擾動就絕對能量而言并不是「安靜的」。

對語音識別領域的對抗樣本性質進一步調查后發(fā)現(xiàn)，其性質似乎與圖像領域對抗樣本的性質不同。研究人員調查了攻擊方構建物理世界對抗樣本的能力。即使考慮了物理世界引入的扭曲，這些輸入在分類時仍然是對抗的。通過設計經(jīng)過隨機空間環(huán)境模擬器處理后仍然具有對抗性的音頻，研究人員朝著開發(fā)能夠無線播放的音頻邁近了一步。

最后，研究人員證明，其對抗能夠攻擊當前最先進的現(xiàn)代 Lingvo ASR 系統(tǒng)。

論文：Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition

微信圖片_20190330191342.jpg

論文地址：https://arxiv.org/abs/1903.10346

對抗樣本是由攻擊方設計的機器學習模型輸入，目的是導致錯誤輸出。到目前為止，對抗樣本在圖像領域中的研究最為廣泛。在圖像領域中，對抗樣本可以通過圖像的細微修改來構建，進而導致誤分類，并且對抗樣本在現(xiàn)實世界很實用。

相比之下，目前應用于語音識別系統(tǒng)的針對性對抗樣本不具有這兩種特性：人類很容易識別對抗擾動，而且這些擾動在無線播放下就會失去作用。本論文在這兩方面均取得了進展。

其一，研究人員利用聽覺掩碼（auditory masking）的心理聲學原理開發(fā)出了不可察覺的音頻對抗樣本（已經(jīng)人類研究證實），同時保持任意完整句 100% 的針對性成功率。其二，通過構建在應用真實模擬環(huán)境失真后依然有效的擾動，研究人員在物理世界無線音頻對抗樣本方面取得進展。

如何生成不可察覺的對抗樣本

在圖像領域，將圖像和最近的分類樣本之間的 l_p 失真最小化會生成肉眼無法區(qū)分的圖像，但在語音領域并非如此。因此，本研究脫離了 l_p 失真度量，轉而依賴于在聲音空間中捕獲人類音頻感知的廣泛工作。

如何生成魯棒的對抗樣本

為了提高對抗樣本在無線播放時的魯棒性，研究人員用一個聲學空間模擬器來創(chuàng)建模擬無線播放的人工語音（帶有混響的語音）。他們的目標是使用混響（而不是干凈的音頻）擾動語音欺騙 ASR 系統(tǒng)。同時，對抗擾動δ應該比較小，以使其不被人聽見。

如何生成不可察覺的魯棒樣本

結合先前已開發(fā)的兩項技術，研究人員現(xiàn)在提出了一種生成不可察覺和魯棒的對抗樣本的方法。將損失降至最低可以實現(xiàn)這一點。在微信圖片_20190330191407.png 中，交叉熵損失函數(shù) 微信圖片_20190330191443.png 又是用于 Lingvo 的損失，不可察覺性損失微信圖片_20190330191459.png 與等式 5 中定義的一樣。當語音在隨機擾動后播放時，研究人員需要欺騙 ASR 系統(tǒng)，所以交叉熵損失微信圖片_20190330192219.png 迫使轉換的對抗樣本 t(x + δ) 轉錄成 y（與之前再次一樣）。

評估

微信圖片_20190330192547.jpg

圖 1：人們對不可察覺性的研究結果。圖中的 baseline 表示由 Carlini & Wagner（2018 年）制作的對抗樣本，「ours」表示根據(jù)章節(jié) 4 中的算法生成的不可察覺對抗樣本。

微信圖片_20190330192603.jpg

表 1：1000 個 clean 和（不可察覺）對抗性擾動樣本的句子級準確率和詞錯率（WER），并且在沒有無線模擬的情況下輸入 Lingvo 模型。在「Clean」中，真實值為初始轉錄。在「Adversarial」中，ground truth 為針對性轉錄。

微信圖片_20190330192627.jpg

表 2：100 個 clean 和對抗性擾動樣本的句子級準確率和 WER，并且在無線模擬的情況下輸入 Lingvo 模型。「clean」輸入的真實值為初始轉錄，而對抗性輸入的真實值為針對性轉錄。擾動以為界。

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

你的耳朵真的靈敏嗎？Goodfellow等人提出不可察覺的魯棒語音對抗樣本

日期： 2019-03-30

相關內(nèi)容