91香蕉视频全集观看下载,av三级网站免费观看,国产电影久久精品

云計算平臺上的增量分類研究

來源：微型機與應用2011年第18期

李曼

(南京郵電大學計算機學院，江蘇南京210003)

摘要： 針對已有增量分類算法只是作用于小規(guī)模數(shù)據(jù)集或者在集中式環(huán)境下進行的缺點，提出一種基于Hadoop云計算平臺的增量分類模型，以解決大規(guī)模數(shù)據(jù)集的增量分類。為了使云計算平臺可以自動地對增量的訓練樣本進行處理，基于模塊化集成學習思想，設計相應Map函數(shù)對不同時刻的增量樣本塊進行訓練，Reduce函數(shù)對不同時刻訓練得到的分類器進行集成，以實現(xiàn)云計算平臺上的增量學習。仿真實驗證明了該方法的正確性和可行性。

關鍵詞： 增量分類 Hadoop 云計算

Abstract：

Key words :

摘要： 針對已有增量分類算法只是作用于小規(guī)模數(shù)據(jù)集或者在集中式環(huán)境下進行的缺點，提出一種基于Hadoop 云計算平臺的增量分類模型，以解決大規(guī)模數(shù)據(jù)集的增量分類。為了使云計算平臺可以自動地對增量的訓練樣本進行處理，基于模塊化集成學習思想，設計相應Map函數(shù)對不同時刻的增量樣本塊進行訓練，Reduce函數(shù)對不同時刻訓練得到的分類器進行集成，以實現(xiàn)云計算平臺上的增量學習。仿真實驗證明了該方法的正確性和可行性。
關鍵詞： 增量分類；Hadoop；云計算

    隨著信息技術和生物技術突飛猛進的發(fā)展，科學研究和實際應用中產(chǎn)生了海量數(shù)據(jù)，并且這些數(shù)據(jù)每天都在增加，為了將每天產(chǎn)生的新數(shù)據(jù)納入到新的學習系統(tǒng)，需要利用增量學習。增量學習比較接近人類自身的學習方式，可以漸進地進行知識的更新，修正和加強以前的知識，使得更新后的知識能適應更新后的數(shù)據(jù)，而不必重新學習全部數(shù)據(jù)，從而降低了對時間和空間的需求。模塊化是擴展現(xiàn)有增量學習能力的有效方法之一[1]，而集成學習（Ensemble Learning）一直是機器學習領域的一個研究熱點[2-6]，許多模塊化增量分類算法[7-9]正是基于二者提出的。
   云計算(Cloud Computing)這一新名詞從2007年第3季度誕生起就在學術界和產(chǎn)業(yè)界引起了轟動，Google、IBM、百度、Yahoo等公司都開始進行“云計算”的部署工作。云計算是分布式計算(Distributed Computing)、并行計算(Parallel Computing)和網(wǎng)格計算(Grid Computing)的發(fā)展與延伸。在云計算環(huán)境下，互聯(lián)網(wǎng)用戶只需要一個終端就可以享用非本地或遠程服務集群提供的各種服務（包括計算、存儲等），真正實現(xiàn)了按需計算，有效地提高了云端各種軟硬件資源的利用效率。隨著云計算技術的日益成熟，云計算也為解決海量數(shù)據(jù)挖掘所面臨的問題提供了很好的基礎[10]。雖然在機器學習領域，對增量學習進行了較深入的研究，但是在云計算環(huán)境下，還沒有相關文獻討論利用增量分類提高云計算環(huán)境下海量數(shù)據(jù)挖掘的效率問題。本文基于模塊化的集成學習思想，研究在開源云計算平臺Hadoop[11]上的增量分類方法。
1 Hadoop云平臺的體系結(jié)構(gòu)
   在現(xiàn)有的云計算技術中， Apache軟件基金會(Apache Software Foundation) 組織下的開源項目Hadoop是一個很容易支持開發(fā)和并行處理大規(guī)模數(shù)據(jù)的分布式云計算平臺，具有可擴展、低成本、高效和可靠性等優(yōu)點。程序員可以使用Hadoop中的Streaming工具(Hadoop為簡化Map/Reduce的編寫，為讓不熟悉Java的程序員更容易在Hadoop上開發(fā)而提供的一個接口)使用任何語言編寫并運行一個Map/Reduce作業(yè)。Hadoop項目包括多個子項目，但主要是由Hadoop分布式文件系統(tǒng)HDFS（Hadoop Distributed File System）和映射/化簡引擎（Map/Reduce Engine）兩個主要的子項目構(gòu)成。
1.1 分布式文件系統(tǒng)HDFS
   Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distribu-
tedFile System)，簡稱HDFS。HDFS采用Master/Slave架構(gòu)，一個HDFS集群由一個NameNode節(jié)點和若干DataNode節(jié)點組成。NameNode節(jié)點存儲著文件系統(tǒng)的元數(shù)據(jù)，這些元數(shù)據(jù)包括文件系統(tǒng)的名字空間等，并負責管理文件的存儲等服務，程序使用的實際數(shù)據(jù)并存放在DataNode中，Client是獲取分布式文件系統(tǒng)HDFS文件的應用程序。圖1是HDFS結(jié)構(gòu)圖。
   圖1中，Master主要負責NameNode及JobTracker的工作，JobTracker的主要職責是啟動、跟蹤和調(diào)度各個Slave任務的執(zhí)行。還會有多臺Slave，每一臺Slave通常具有DataNode的功能并負責TaskTracker的工作。TaskTracker根據(jù)應用要求來結(jié)合本地數(shù)據(jù)執(zhí)行Map任務以及Reduce任務。

1.2 Map/Reduce分布式并行編程模型
Hadoop框架中采用了Google提出的云計算核心計算模式Map/Reduce，它是一種分布式計算模型，也是簡化的分布式編程模式[12]。Map/Reduce把運行在大規(guī)模集群上的并行計算過程抽象成兩個函數(shù)：Map和Reduce，其中，Map把任務分解成多個任務，Reduce把分解后的多個任務處理結(jié)果匯總起來，得到最終結(jié)果。圖2介紹了用Map/Reduce處理數(shù)據(jù)的過程。一個Map/Reduce操作分為兩個階段：映射和化簡。

    在映射階段（Map階段），Map/Reduce框架將用戶輸入的數(shù)據(jù)分割為N個片段，對應N個Map任務。每一個Map的輸入是數(shù)據(jù)片段中的鍵值對<K1，V1>集合，Map操作會調(diào)用用戶定義的Map函數(shù)，輸出一個中間態(tài)的鍵值對<K2，V2>。然后，按照中間態(tài)K2將輸出的數(shù)據(jù)進行排序，形成<K2，list(V2)>元組，這樣可以使對應于同一個鍵的所有值的數(shù)據(jù)都集合在一起。最后，按照K2的范圍將這些元組分割成M個片段，從而形成M個Rdeuce任務。
   在化簡階段(Reduce階段)，每一個Reduce操作的輸入是Map階段的輸出，即<K2，list(V2)>片段，Reduce操作調(diào)用用戶定義的Reduce函數(shù)，生成用戶需要的結(jié)果<K3，V3>進行輸出。
2 基于Map/Reduce的模塊化增量分類模型
   基于Map/Reduce的增量分類模型，主要思想是Map函數(shù)對訓練數(shù)據(jù)進行訓練，得到基于不同時刻增量塊的分類器，Reduce函數(shù)利用Map訓練好的分類器對測試樣本進行預測，并且將不同時刻訓練得到的分類器進行集成，得到最終的分類結(jié)果?；贛ap/Reduce的增量分類模型如圖3所示。當t1時刻有海量的訓練樣本到達時，通過設置Map任務的個數(shù)使得云平臺自動地對到達的海量樣本進行劃分，每個Map的任務就是對基于劃分所得的樣本子集進行訓練得到一個基分類器。同一時刻的不同Map之間可以并行訓練，從而得到t1時刻的增量分類系統(tǒng)。當tT時刻的訓練樣本到達以后，采取相同的步驟，得到tT時刻的不同基分類器，然后將這些分類器加入到tT-1時刻的增量分類系統(tǒng)以構(gòu)成tT時刻的增量分類系統(tǒng)。再采用Reduce函數(shù)將當前增量分類系統(tǒng)里所有分類器進行集成，集成方法可以采用投票法Majority Voting(MV)進行。
2.1 Map過程
   Map函數(shù)的主要功能就是建立不同時刻的增量分類系統(tǒng)。當某一時刻有新的訓練樣本到達時，Map便從HDFS將其讀取。通過設置Map任務的個數(shù)使得云平臺自動地對大規(guī)模的訓練樣本進行劃分，每一個Map任務完成基于一個劃分塊的分類訓練，劃分后的不同塊可以并行訓練，從而得到基于該時刻增量樣本集的不同分類器，然后將這些分類器加入上一時刻的增量分類系統(tǒng)以構(gòu)成當前時刻的增量分類系統(tǒng)。Map函數(shù)偽代碼如下：

3 仿真實驗

    本文用三臺PC搭建了Hadoop云計算平臺，三臺PC的硬件配置均為2GRAM和AMD雙核CPU，各節(jié)點的操作系統(tǒng)為Linux Centos 5.4，Hadoop版本為0.19.2，JDK版本為1.6.0_12。實驗中一臺PC既部署NameNode和JobTrack，也部署DataNode和TaskTrack，另兩臺PC均部署DataNode和TaskTrack。
   實驗對兩個數(shù)據(jù)集進行了仿真，第一個數(shù)據(jù)集是來自UCI的Adult[13]數(shù)據(jù)集,第二個是來自UCI的Mushrooms(每個實名屬性都被分解成若干個二進制屬性，初始的12號屬性由于丟失未使用)數(shù)據(jù)集。分類器采用SVM[14]。為了證明該方法的正確性，每個實驗分別在集中式和云平臺兩種環(huán)境下進行。兩種環(huán)境都將訓練樣本集隨機劃分為五等份以構(gòu)成5個增量訓練子集，也就是按照時間順序進行了5次增量訓練。由于現(xiàn)實中采集的增量訓練樣本的規(guī)?？赡芎艽螅栽谠破脚_環(huán)境中，通過設置Map的個數(shù)對樣本進行分解。本次實驗中Map的個數(shù)設為2，這樣每個增量訓練子集都會被云平臺自動劃分成兩塊，各塊之間可以進行并行訓練。為了與云平臺環(huán)境進行對比，在集中式環(huán)境中將每個子集手動均分成兩塊，每塊用來訓練一個分類器。每個實驗均采用了式（1）和式（2）兩種核函數(shù)。

其中，相關參數(shù)γ=0.008，β0=0.009，β1=0，懲罰因子C=1。實驗所用的兩個數(shù)據(jù)集的數(shù)據(jù)分布如表1所示。
   兩個增量分類系統(tǒng)在不同數(shù)據(jù)集上的分類性能如圖4所示。通過比較可知，集中式增量分類的準確率和Hadoop云平臺上增量分類準確率較為接近，證明了本文所提出的在Hadoop云平臺上實現(xiàn)增量分類方法的可行性和正確性。由于MV方法本身具有較大的波動性，故集中式和Hadoop云平臺環(huán)境中隨著訓練樣本的增加，增量分類系統(tǒng)的學習能力是曲折上升的。

本文提出了一種基于Hadoop云平臺的增量分類方法，仿真實驗表明，基于Hadoop云平臺的增量分類是可行的。與其他增量分類方法相比，該模型簡單，易于實現(xiàn)。通過設置平臺中Map任務的個數(shù)讓云平臺自動地對海量訓練樣本進行劃分，劃分后的各個任務相互獨立，可以進行并行訓練。這提高了海量數(shù)據(jù)的處理速度，基本實現(xiàn)了實時的增量分類。
參考文獻
[1] 羅四維，溫津偉.神經(jīng)場整體性和增殖性研究與分析[J].計算機研究與發(fā)展，2003，40(5)：668-674.
[2] 周志華，陳世福.神經(jīng)網(wǎng)絡集成[J].計算機學報，2002，25(1)：1-8.
[3] 王玨，石純一.機器學習研究[J].廣西師范大學學報，2003，21(2)：1-15.
[4] LU B L，ITO M.Task decomposition and module combination based on class relations:a modular neural networks for pattern classification[J].IEEE Trans.Neural Networks，1999，10(5)：1244-1256.
[5] HUANG Y S，SUEN C Y.A method of combining multiple experts for the recognition of unconstrained handwritten numerals[J]. IEEE Trans. Pattern Analysis and Machine Intelligence,1995,17(1):90-94.
[6] WOODS K, KEGELMEYER W P，BOWYER K.Combination of multiple classifiers using local accuracy estimates[J]. IEEE Trans. Pattern Analysis and Machine Intelligence, 1997, 19(4)：405-410.
[7] POLIKAR R，UDPA L，UDPA S S，et al. Learn++:an incremental learning algorithm for supervised neural networks [J]. IEEE Trans. System, Man, and Cybernetic, 2001,31(4)：497-508.
[8] LU B L，ICHIKAWA M. Emergent online learning in minmax modular neural networks[J]. In:Proc. of Inter’l Conference on Neural Network(IJCNN’01), Washington, DC,USA, 2001：2650-2655.
[9] 文益民，楊旸，呂寶糧.集成學習算法在增量學習中的應用研究[J].計算機研究與發(fā)展, 2005, 42(增刊):222-227.
[10] COPPOCK H W，F(xiàn)REUND J E.All-or-none versus incremental learning of errorless shock escapes by the rat[J]. Science, 1962, 135(3500)：318-319.
[11] Hadoop.[EB/OL].2008-12-16.http://hadoop.apache.org/core/.
[12] DEAN J，GHEMAWAT S.MapReduce:simplified data processingon large clusters[J]. Communications of the ACM, 2008, 51(1):107-113.
[13] PLATT J C. Fast training of support vector machines using sequential minimal optimization[D].SCHOLKOPF B, BURGES C J C, SMOLA A J, editors.Advances in kernel methods-support vector learning.Cambridge, MA,MIT Press，1998.
[14] 鄧乃揚，田英杰.數(shù)據(jù)挖掘中的新方法:支持向量機[D]. 北京：科學出版社, 2004.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉(zhuǎn)載。

相關內(nèi)容