利用機(jī)器學(xué)習(xí)技術(shù)審閱文檔,生成摘要,提高文字工作效率是人工智能的重要發(fā)展方向。近日,達(dá)觀數(shù)據(jù)推出了文檔智能審閱系統(tǒng) 2.0 版,吸引了德勤、平安信托等眾多公司的青睞。
在產(chǎn)品正式推出前,機(jī)器之心找到了達(dá)觀數(shù)據(jù)的創(chuàng)始人和 CEO 陳運(yùn)文,他向我們介紹了達(dá)觀數(shù)據(jù)新版文檔審閱系統(tǒng)背后的技術(shù),同時也對自然語言處理(NLP)和人工智能技術(shù)的未來進(jìn)行了展望。作為國內(nèi)第一家將自動語義分析技術(shù)應(yīng)用于行業(yè)中的人工智能公司,達(dá)觀數(shù)據(jù)成立于 2015 年。這家公司旨在用文字語義自動分析技術(shù)為企業(yè)級客戶提供文本自動抽取、審核、糾錯、搜索、推薦、寫作等智能軟件系統(tǒng)。
該公司的 CEO 陳運(yùn)文博士畢業(yè)于復(fù)旦大學(xué),他同時也是上海市計(jì)算機(jī)學(xué)會多媒體分會副會長、國際計(jì)算機(jī)學(xué)會(ACM)和國際電子電器工程師學(xué)會(IEEE)高級會員,中國計(jì)算機(jī)學(xué)會(CCF)會員。他曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官,騰訊文學(xué)高級總監(jiān)、數(shù)據(jù)中心負(fù)責(zé)人,百度核心技術(shù)研發(fā)工程師等職務(wù),曾帶領(lǐng)團(tuán)隊(duì)多次獲得 ACM 競賽冠亞軍。
達(dá)觀數(shù)據(jù)創(chuàng)始人、CEO 陳運(yùn)文博士
陳運(yùn)文的職場經(jīng)歷,無論是百度的搜索引擎技術(shù)研發(fā),還是盛大文學(xué)的數(shù)據(jù)負(fù)責(zé)人,都是在與數(shù)據(jù)打交道。他曾經(jīng)研究利用技術(shù)挖掘數(shù)據(jù)提高公司的效率和收入,而在達(dá)觀數(shù)據(jù),他領(lǐng)導(dǎo)開發(fā)的技術(shù)力量已經(jīng)可以剖析用戶的海量數(shù)據(jù),為更多企業(yè)提升收益。
達(dá)觀數(shù)據(jù)是一家具有學(xué)術(shù)背景的公司,專注于將最新自然語言處理技術(shù)應(yīng)用到具體場景中。「這件事情很難,但是我覺得特別有意思:我們面臨著很多的技術(shù)挑戰(zhàn),有很多的工作要做,有困難才有動力?!龟愡\(yùn)文表示。
文檔審閱 2.0
在達(dá)觀數(shù)據(jù)描繪的未來里,計(jì)算機(jī)并不會百分之百的代替人,它會作為人類的助手存在,對文檔進(jìn)行快速處理,補(bǔ)充人類的不足之處。人工智能算法可以發(fā)現(xiàn)人們?nèi)菀缀雎缘腻e誤。而人類在工作流程中的任務(wù)是復(fù)查計(jì)算機(jī)給出的結(jié)果,這樣可以大幅度提高工作效率。
在金融等對于文本準(zhǔn)確性要求很高的行業(yè)中,計(jì)算機(jī)具有快速處理數(shù)據(jù)的能力,對內(nèi)容的復(fù)核,包括字詞的復(fù)核都有天然的優(yōu)勢。
達(dá)觀數(shù)據(jù)的文檔智能審閱系統(tǒng)可以一鍵審核數(shù)十種常見風(fēng)險。
在這個過程中,達(dá)觀數(shù)據(jù)面臨著很多挑戰(zhàn)?!肝覀兿M層?jì)算機(jī)理解金融行業(yè)里的領(lǐng)域知識——『Know how』,」陳運(yùn)文表示,「讓算法和專業(yè)內(nèi)容更加緊密地結(jié)合在一起。因此,我們投入了大量精力去了解和掌握金融行業(yè)員工日常的操作方式。我們需要把領(lǐng)域內(nèi)的知識固化到軟件系統(tǒng)內(nèi),這樣軟件才能像白領(lǐng)員工一樣進(jìn)行工作?!?/p>
陳運(yùn)文表示,達(dá)觀數(shù)據(jù)的語言處理模型在訓(xùn)練時使用了兩部分?jǐn)?shù)據(jù),一部分是特定領(lǐng)域內(nèi)的語料數(shù)據(jù),包括行業(yè)中公開的語料數(shù)據(jù)、資料、專業(yè)術(shù)語等。公司技術(shù)人員已投入大量精力對數(shù)據(jù)進(jìn)行了采集、歸納整理和分析。另一方面,達(dá)觀數(shù)據(jù)的客戶多年來也積累了大量高質(zhì)量行業(yè)數(shù)據(jù)。通過高質(zhì)量的數(shù)據(jù)訓(xùn)練算法,計(jì)算機(jī)系統(tǒng)會變得越來越聰明。據(jù)稱,在一些具體操作中,達(dá)觀數(shù)據(jù)的系統(tǒng)已具備了遠(yuǎn)超過普通人類的處理能力。
達(dá)觀數(shù)據(jù)的文檔審核系統(tǒng)在糾錯算法和審核算法中采用了 LSTM 等技術(shù),其 2.0 版還引入了遷移學(xué)習(xí)和增強(qiáng)學(xué)習(xí)。復(fù)雜的模型帶來了更高的準(zhǔn)確率,但也意味著計(jì)算成本的提升。而陳運(yùn)文表示,即使在這樣的情況下,計(jì)算機(jī)帶來的便利性也大大超過了人力成本。
「深度學(xué)習(xí)、LSTM 等算法確實(shí)是比傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)需要耗費(fèi)更多的算力,」陳運(yùn)文介紹道,「但另一方面,相比于高昂的人力成本來說。這些算法背后依賴的硬件成本即使在今天看來也并不高。由 GPU 組建的集群需要的成本比一群金融業(yè)白領(lǐng)的年薪要低得多。」
算力問題并不會成為實(shí)踐面臨的障礙。除了已有的效率優(yōu)勢之外,另一方面,硬件的成本每一年都在降低。達(dá)觀數(shù)據(jù)認(rèn)為,在未來,文本挖掘、自然語言處理的成本會降低到難以想象的地步——而要付給員工的工資只會不斷增多。
在可用性方面,機(jī)器學(xué)習(xí)系統(tǒng)也有著自己的優(yōu)勢。在達(dá)觀數(shù)據(jù)很多客戶的專業(yè)領(lǐng)域內(nèi),培養(yǎng)一個專家需要很多年的時間,在此之后,經(jīng)驗(yàn)和知識又很難遷移到其他人身上。而在今天,計(jì)算機(jī)軟件系統(tǒng)一旦訓(xùn)練好,就具備了類似人類專家水平的能力,同時可以零成本地進(jìn)行復(fù)制,服務(wù)更多人。
達(dá)觀數(shù)據(jù)曾做過比較,現(xiàn)在一臺服務(wù)器提供的工作能力基本相當(dāng)于 15 個普通的員工。而隨著硬件成本的下降,這個數(shù)字還將不斷提高?,F(xiàn)在一臺服務(wù)器運(yùn)行一年的成本可以是 2 萬元以內(nèi)。
在提高計(jì)算并行化效率上,達(dá)觀數(shù)據(jù)的產(chǎn)品采用了 Mini batch 等新技術(shù)。同時,其模型也結(jié)合了 LSTM、CNN、統(tǒng)計(jì)學(xué)習(xí)等方法,通過獨(dú)有的雙層組合學(xué)習(xí)的方法,整個系統(tǒng)可充分發(fā)揮各種算法的優(yōu)勢,讓算法的能力發(fā)揮到最大。
逐漸成型的市場
在技術(shù)以外,如何向傳統(tǒng)公司推廣人工智能產(chǎn)品也是擺在各家 AI 科技公司面前的難題。在達(dá)觀數(shù)據(jù)看來,目前最困難的起始階段已經(jīng)過去。
「坦率地說,應(yīng)該感謝媒體,它們過去三四年來對于人工智能進(jìn)行了大量的宣傳報道,」陳運(yùn)文表示,「我們發(fā)現(xiàn)傳統(tǒng)行業(yè)客戶,不論是領(lǐng)導(dǎo)還是一線的員工,他們都對人工智能、大數(shù)據(jù)和信息化帶來的價值有所了解。我們現(xiàn)在向客戶介紹產(chǎn)品沒有什么障礙,客戶都很樂意去嘗試先進(jìn)的技術(shù)。」
但解決方案成型關(guān)鍵在于如何很好地解決客戶面臨的問題。
達(dá)觀數(shù)據(jù)認(rèn)為,今天中國的 AI 產(chǎn)業(yè)正處于歷史上很好的一個時期——來自各行各業(yè)的客戶們已經(jīng)開始愿意接受新興的技術(shù)——但這也意味著科技公司不能制造泡沫,必須打造優(yōu)秀的產(chǎn)品,要讓客戶覺得產(chǎn)品配得上人工智能的稱號。
在 NLP 的賽場上,一些科技巨頭也在不斷展示著自己的實(shí)力。面對競爭,陳運(yùn)文認(rèn)為國內(nèi) AI 公司的優(yōu)勢在于能夠提供個性化的服務(wù):「微軟在 NLP 領(lǐng)域有著強(qiáng)大的技術(shù)實(shí)力,但中國本土的企業(yè)并不落后。我們的優(yōu)勢在于可以向客戶提供貼身的服務(wù)。」達(dá)觀數(shù)據(jù)在實(shí)踐中發(fā)現(xiàn),每一個客戶的需求都有些許的差異——很難用一個通用化的模型來滿足不同客戶的個性化需求。
這家公司致力于為客戶提供解決實(shí)際問題的系統(tǒng),提供定制化方案,而不是通過一個大而全的平臺,試圖通過一個算法解決大量問題——這樣很難把一個具體的問題解決的足夠好。
目前達(dá)觀數(shù)據(jù)的文檔處理系統(tǒng)已經(jīng)發(fā)展了大量客戶,其中包括很多世界五百強(qiáng)的大型企業(yè),金融行業(yè)、新聞媒體、法律行業(yè)和政府。如招商銀行、平安信托、華泰證券等等金融領(lǐng)域的公司;以及華為、海爾等五百強(qiáng)企業(yè)里的標(biāo)桿客戶。這些客戶、行業(yè)的特點(diǎn)是它們都會接觸大量的文檔資料。
達(dá)觀數(shù)據(jù)文檔處理系統(tǒng)下一步的推廣目標(biāo)是傳媒行業(yè)、政府和事業(yè)單位。這些機(jī)構(gòu)每天都面臨著大量的文字處理工作,而目前為止,所有這些都需要耗費(fèi)大量的人力,未來這家公司提供的系統(tǒng)將會大幅解放這些人力。
達(dá)觀數(shù)據(jù)發(fā)現(xiàn),很多發(fā)達(dá)地區(qū)的地方政府對于新技術(shù)具有很高的熱情。比如行政審批,這幾乎占到了政府部門 1/3 的工作量。這些工作目前都還是依靠大量的基層公務(wù)員來做的。達(dá)觀數(shù)據(jù)預(yù)計(jì),它們中的很大一部分,包括預(yù)審、材料檢查等都可以在未來由計(jì)算機(jī)來承擔(dān)。
技術(shù)優(yōu)先的團(tuán)隊(duì)
基于公司的基因,陳運(yùn)文為達(dá)觀數(shù)據(jù)選擇了面向企業(yè)客戶的道路。經(jīng)過三年多的發(fā)展,這家公司已形成了規(guī)模近 200 人的團(tuán)隊(duì),其中研發(fā)團(tuán)隊(duì)占六成。這家公司有著濃厚的技術(shù)氛圍,一直在不斷發(fā)表介紹 NLP 技術(shù)的博客,舉辦算法大賽。
「我自己也在寫技術(shù)博客!我們對于技術(shù)的態(tài)度非常開放:技術(shù)是要拿出來分享的?!龟愡\(yùn)文表示,「我特別鼓勵員工總結(jié)自己的經(jīng)驗(yàn)和想法,把它寫成文章發(fā)表出來,讓所有文本挖掘的愛好者都能夠看得見。這樣對于整個產(chǎn)業(yè)都是有益的?!?/p>
達(dá)觀數(shù)據(jù)有很多工程師都公開發(fā)表了技術(shù)博客,這些文章經(jīng)常會填補(bǔ)國內(nèi)在特定領(lǐng)域上技術(shù)文章的空白。
陳運(yùn)文曾帶隊(duì)參加 ACM 數(shù)據(jù)競賽并獲獎。
陳運(yùn)文也有著數(shù)據(jù)競賽的情節(jié)。他曾作為隊(duì)長組隊(duì)參加過很多國際算法競賽,并拿到過多個冠軍。達(dá)觀數(shù)據(jù)舉辦了自己的 NLP 數(shù)據(jù)競賽:「達(dá)觀杯」文本智能處理挑戰(zhàn)賽。據(jù)介紹,今年的比賽已經(jīng)吸引了 2000 余名參賽選手,成為了目前國內(nèi)規(guī)模最大的文本挖掘比賽。達(dá)觀數(shù)據(jù)認(rèn)為,能夠聚攏全國最具實(shí)力的文本挖掘愛好者共同解決一個問題,是一個很有意義的事情。
在 2017 年 4 月的 A 輪融資后,達(dá)觀數(shù)據(jù)已經(jīng)推出了多種產(chǎn)品,并迅速拓展了業(yè)務(wù)。陳運(yùn)文本次還透露,達(dá)觀數(shù)據(jù)即將在 2018 年第三個季度公布自己的 B 輪融資交易情況。這將成為中國目前為止自然語言處理領(lǐng)域內(nèi)最大的融資之一。具體細(xì)節(jié)很快即將公布。
文本挖掘在中國,不僅是在技術(shù)上,還是在應(yīng)用上都仍處于早期狀態(tài)。在未來,達(dá)觀數(shù)據(jù)的發(fā)展將會著力于兩個方面,一方面繼續(xù)加大技術(shù)上的投入:把中文的文本挖掘技術(shù)做深做透。而在應(yīng)用方面,達(dá)觀數(shù)據(jù)希望改變中國傳統(tǒng)企業(yè)「人拉肩扛」的原始文本處理方式,為眾多客戶帶來自動化。
「我們認(rèn)為,大量的文字處理應(yīng)用場景未來一定需要更好的工具、更自動化的手段,去幫助人們提高工作效率?!龟愡\(yùn)文表示,「我們會開發(fā)更多的應(yīng)用,部署到每個行業(yè)、每個客戶身邊。對于我們來說,未來還有很多工作要做?!棺鳛橐患覍W⒂谡Z義理解技術(shù)的 AI 企業(yè),達(dá)觀數(shù)據(jù)文檔智能審閱系統(tǒng) 2.0 版本只是一個開始,這家公司還希望在未來向普通用戶提供更多產(chǎn)品。
「也許等我們有足夠的資源和力量的時候,會嘗試推出一些面向消費(fèi)者的文字處理工具。未來也許每一個中國的消費(fèi)者,在頭疼于文字處理中時,達(dá)觀數(shù)據(jù)的系統(tǒng)可以為你們提供幫助。不管是寫作、修訂、審閱、分類,人工智能系統(tǒng)都能夠大幅度提高人們的工作效率?!龟愡\(yùn)文表示。