大鸡吧久久久久久久久,日本免费黄色片官网,亚洲精品无码久久久爆乳

Tumblr掃黃正式開始！AI鑒黃也許是老司機們的頭號敵人

日期： 2018-12-17

關鍵詞： Tumblr 人工智能 AI鑒黃

大家喜聞樂見的 Tumblr（湯不熱）涼了……

12 月初，美國著名圖片博客網站 Tumblr 宣布將全面禁止任何成人內容。新規(guī)定將于 12 月 17 日正式施行。這一行為看來是主動在和「互聯網的 30% 流量」說再見，長久混跡 Tumblr 的老司機們送了一首「涼涼」予它。

微信圖片_20181217184909.jpg

自 2007 年上線以來，Tumblr 一直以允許 NSFW 內容而聞名（也可能是臭名昭著），這是公司管理層一時的頭腦發(fā)熱還是想要「改過自新」了？不論 Tumblr 的意圖如何，想要為社交網絡加入審核機制，過濾色情圖片/視頻是需要投入技術和人力的。

在 Tumblr 的官方通告中，公司 CEO Jeff D’Onofrio 表示，「……（Tumblr) 將采用產業(yè)標準的機器監(jiān)控、不斷加大的人類監(jiān)控等方式禁止成人內容。」

但是，才「睜開眼睛」的計算機并不那么完美?！筗ired 在近日的一篇文章中稱。許多 Tumblr 用戶在 Twitter 上抱怨其鑒別系統(tǒng)存在許多誤判行為。如據 Wired 文章，奧克拉荷馬大學法學院教授 Sarah Burstein 只是發(fā)布了幾張設計專利圖，就被標記了。文章表示這不僅效率低下，而且傷害了用戶的感情。不少 Tumblr 的用戶失望地涌向推特，《紐約時報》稱這些用戶是「棄船而逃」。

其實在多年前，Tumblr 就面臨著準確識別 NSFW 內容的問題。2013 年，Yahoo 11 億美元收購 Tumblr，4 年后 Verizon 收購雅虎，Tumblr 歸于 Verizon 子公司 Oath，并在不久之后推出了「安全模式」，能在搜索結果中自動過濾成人內容。

人工智能雖然可以同時處理大量圖片，但畢竟不是人類，難免會出現一些令人哭笑不得的差錯。特別像 Tumblr 這樣的微博客平臺，用戶群體復雜，色情與非色情的界限非常難以把握。圖普科技產品運營總監(jiān)姜澤榮表示，「（這樣的平臺在制定標準時）標準過嚴可能會把攝影作品、藝術作品之類的內容識別為色情內容，傷害用戶體驗；標準過低則會讓平臺上的色情內容繼續(xù)泛濫。此外平臺上的內容類型繁多，包含文字、圖片、視頻、直播等，各個類型的內容實時性不一，審核標準差異大，這無疑都對開發(fā)、運營等團隊提出高要求。」

圖普科技是國內較早使用深度學習技術提供圖像和視頻內容審核服務的 AI 創(chuàng)業(yè)公司。在平臺色情內容審核等問題上，圖譜向機器之心解釋了一些問題。

圖像鑒黃系統(tǒng)流程是什么？

鑒黃系統(tǒng)的工作流程是這樣的：首先是要建模，其次是制定色情圖片的分類標準，然后收集大量素材，進行分類標注，最后用這些標注好的素材進行訓練，讓機器去學習各個分類里面的特征，不斷調整自己模型的參數并最終得到最佳的識別模型。

而當機器對圖像進行識別以后，這些圖像數據會轉化為數字化的信息，帶入到模型里面進行計算, 根據計算值將圖片標注為「正常、性感、色情」三個類別。

因為「識別」的不完美性，這樣的系統(tǒng)也會有人類的參與。在經過識別之后，系統(tǒng)把判斷結果和概率告訴使用方，使用方會再根據結果做對應處理，比如自動刪除、或者人工接入復審。如果在人工復核環(huán)節(jié)發(fā)現機器識別有誤，則會有針對性地對相同場景的圖片進行數據學習, 并調整參數, 直到錯誤率達到最低值。

AI 鑒黃的技術核心是深度學習理論（Deep Learning）。通俗來講，可以把深度學習理解為一個空白的大腦，海量數據就是灌輸進來的經驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎，讓引擎不斷學習，然后把他們做對的進行獎勵，做錯的就懲罰，當然這些獎勵和懲罰都是數學上的，最后空白的腦袋就會學成了一種連接的模型，這種模型就是為了鑒別色情與非色情而生的。

深度學習就是人工神經網絡（Artificial Neural Network，以下簡稱 ANN）。要了解 ANN，讓我們先來看看人類的大腦是如何工作的。

微信圖片_20181217184928.jpg

人腦的視覺處理系統(tǒng)（圖片來源：Simon Thorpe）

上圖表示人理解外界視覺信息的過程。從視網膜（Retina）出發(fā), 經過低級的 V1 區(qū)提取邊緣特征，到 V2 區(qū)的基本形狀或目標的局部，再到高層的整個目標（如判定為一張人臉），以及到更高層的 PFC（前額葉皮層）進行分類判斷等。也就是說高層的特征是低層特征的組合，從低層到高層的特征表達越來越抽象和概念化，也即越來越能表現語義或者意圖。

深度學習恰恰就是通過組合低層特征形成更加抽象的高層特征（或屬性類別），然后在這些低層次表達的基礎上通過線性或者非線性組合，來獲得一個高層次的表達。此外，不僅圖像存在這個規(guī)律，聲音也是類似的。

現在來看深度學習的簡易模型。

微信圖片_20181217184953.jpg

傳統(tǒng)的神經網絡與深度神經網絡（圖片來源網絡）

深度學習的一個主要優(yōu)勢在于可以利用海量訓練數據（即大數據），在學習的過程中不斷提高識別精度，但是仍然對計算量有很高的要求。而近年來，得益于計算機速度的提升、大規(guī)模集群技術的興起、GPU 的應用以及眾多優(yōu)化算法的出現，耗時數月的訓練過程可縮短為數天甚至數小時，深度學習才逐漸可用于工業(yè)化。

對于開發(fā)團隊來說，做該領域的產品困難在于如何獲取大規(guī)模已標注數據、集成有 GPU 的計算集群以及針對自己的項目調參數，團隊需要不斷地輸入新數據，持續(xù)迭代以提高機器識別準確率。

既有圖片又有視頻怎么辦？

在短視頻流行的今天，各家科技公司還要面對海量的視頻內容。圖片是靜態(tài)的，視頻/直播是動態(tài)的，而視頻內容的完整審核包括對圖片、文字、語音的審核，所以會更加復雜。以對視頻圖片審核為例，在鑒別視頻和直播時，可以先把動態(tài)的內容解碼成圖片幀，這就與靜態(tài)圖片鑒別方法相似了。

直播實時性強，對響應時間要求高，并且里面的場景和人物變化比較大，審核要求比較嚴格，所以識別難度會相對比較大，需要實時不斷對房間進行截幀傳輸識別，并且結合人工來實現預警處理；視頻在畫質整體上比圖片和直播差，一定程度會影響識別效果，通常是以視頻為單位進行等時間間隔截圖，以一個視頻多張截圖的結果來綜合判斷視頻是否色情違規(guī)。

如果企業(yè)對視頻或直播的每一幀圖片都進行識別，數據量將變得非常巨大，運營成本會很高。面對這類情況，一般會采用對視頻抽幀的方式進行處理。例如，一分鐘視頻，可以按照時間段來抽取 6-15 幀左右的圖片進行識別處理，以此減少計算成本。

審核能否完全依賴機器？

針對人們屢屢吐槽的「誤殺」問題，圖譜認為在提高 AI 算法準確度的同時目前還需依靠人類做最后的判斷。誤判分為兩大類型：把色情內容誤判為正常內容，以及把正常內容誤判為色情內容。

1）色情判正常：在光線昏暗場景，或者距離很遠時背景干擾比較大的場景下，以及有特效干擾的情況都有可能造成誤判；衣著正常但實際上露點、隱晦的動作和姿勢等。

2）正常判色情：穿著暴露但實際沒露點，物體形似性器官，接近于色情動作但實際不是（譬如手抓棍狀物體、手正常放在敏感部位）等。

機器能夠幫助企業(yè)大幅提升審核效率和準確率。以圖普科技的鑒黃系統(tǒng)為例，每天可審核近 10 億張圖片，識別準確率高于 99.5%，可為企業(yè)節(jié)省 95% 以上的審核人力。但在現階段甚至很長一段時間內，人工智能鑒黃無法完全代替人工鑒黃。因為機器還很難理解內容背后的深意，也不會在不同文化場景中做自由切換。所以推薦以機器+人工的審核方法。

單純的算法和模型是可以把機器訓練到完全正確地判斷情況的，但是在實際應用中，機器沒有自主思考和自己的主觀意識，仍然需要人工輔助進行確認。例如客戶提供的畫面過于模糊或者說光線過暗，以及訓練數據的不能完全覆蓋性等種種客觀原因影響下，機器打不出很高的分確認圖片，這都需要人工來輔助。

微信圖片_20181217185016.jpg

「Tumblr 網友：即使這樣我也愛你?！?/p>

看來，AI 圖像識別系統(tǒng)可以用現有的，「鑒黃師」則非請不可。在宣布禁止成人內容之后，Tumblr 的 app 終于再次出現在蘋果應用商店里。這輛車最終會開向何處？讓我們拭目以待。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

Tumblr掃黃正式開始！AI鑒黃也許是老司機們的頭號敵人

日期： 2018-12-17

相關內容