潘峰
?。▏叶悇?wù)總局稅務(wù)干部進修學院,江蘇 揚州 225007)
摘要:隨著終身學習體系的逐步構(gòu)建,基于互聯(lián)網(wǎng)的遠程學習模式應(yīng)用不斷普及,各種網(wǎng)絡(luò)學習平臺也不斷累積大量的學員學習和考試方面的數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進行分析,可以充分挖掘網(wǎng)絡(luò)學習平臺存量數(shù)據(jù)的價值?;贑5.0決策樹算法,采用軟件工具對研究數(shù)據(jù)進行分析,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,可以針對如何改善學習方法、提升學習效果、改善平臺的服務(wù)模式等提出很好的改進建議。
關(guān)鍵詞:決策樹;考試結(jié)果;預測
1網(wǎng)絡(luò)學習與考試
基于Internet的網(wǎng)絡(luò)學習是目前比較流行的遠程學習模式,它打破了傳統(tǒng)學習的時空環(huán)境限制,有利于構(gòu)建終身學習體系。網(wǎng)絡(luò)學習平臺的學習內(nèi)容以Web頁面的形式呈現(xiàn),具有費用低廉、資源更新快、交互性強等特點,學員可以隨時隨地安排自己的學習時間,提高學習效率。
網(wǎng)絡(luò)學習平臺除了提供在線學習功能,往往還提供隨堂練習、課程作業(yè)、課程考試等考試功能。對學習者學習狀況的評估將直接影響他們對網(wǎng)絡(luò)學習的態(tài)度、積極性和效果[1]?!皩W而時習之”,通過網(wǎng)絡(luò)學習平臺的考試功能進行自我練習(考試)、參加有組織的考試可以有效促進學員學習,提高學習效果和針對性。
2決策樹與C5.0算法
決策樹的分析結(jié)果形似一棵倒置的樹,所以稱為決策樹。決策樹算法是一種逼近離散函數(shù)值的方法[2],它通過構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊涵的分類規(guī)則。決策樹構(gòu)造的輸入是一組帶有類別標記的例子,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹[3],由上到下依次為根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點。決策樹通過對訓練樣本的學習建立分類規(guī)則,依據(jù)此規(guī)則實現(xiàn)對新樣本的分類,屬于有監(jiān)督的學習方法[4]。
決策樹的類別包括分類決策樹和回歸決策樹,其中,分類決策樹目標變量為分類型數(shù)值,其輸出變量的眾數(shù)就是分類結(jié)果。決策樹的分類過程是基于邏輯的,每一個葉節(jié)點都對應(yīng)于一條布爾規(guī)則。樹的生長過程(即建立決策樹的過程)就是把數(shù)據(jù)不斷進行切分的過程,每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略,它們的主要區(qū)別是對這種“差異”明顯程度的衡量方式。
決策樹的構(gòu)建過程是一個遞歸的過程,所以需要確定停止條件。最直觀的方式是當每個子節(jié)點只有一種類型的記錄時停止,但往往會導致過度擬合(樹的節(jié)點太多)。另一種方法是設(shè)置當前節(jié)點中的記錄數(shù)最小閾值,將置信度最大的分類作為當前葉節(jié)點的分類。
作為一種分類決策樹模型算法,C5.0可以生成決策樹或規(guī)則集。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,然后根據(jù)另一個字段再次拆分,這一過程重復進行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據(jù)。熵是對樣本不確定性的一種度量[5]。一個系統(tǒng)越是有序,信息熵就越低;反之,一個系統(tǒng)越是混亂,信息熵就越高。
3C5.0決策樹算法在考試結(jié)果預測中的應(yīng)用
3.1數(shù)據(jù)挖掘工具
SPSS Clementine是SPSS公司收購取得的數(shù)據(jù)挖掘工具。SPSS Clementine 12.0結(jié)合商業(yè)技術(shù)可以快速建立預測性模型,幫助用戶改進決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經(jīng)網(wǎng)絡(luò)等各種預測模型。
3.2數(shù)據(jù)準備
本文研究的數(shù)據(jù)對象為某網(wǎng)絡(luò)學習平臺導出的2015年課程學習和課程考試情況數(shù)據(jù)(學員學習課程與考試結(jié)果);數(shù)據(jù)格式為“課程學習與考試情況”Excel表;操作系統(tǒng)采用Windows 7 Professional 32 bit;硬件配置:內(nèi)存為4 GB。
該學習平臺目前擁有注冊學員近2 000人,提供標準格式課件點播服務(wù),還提供課程同步模擬考試服務(wù)?!罢n程學習與考試情況”表記錄了用戶學習過的課程的次數(shù)、時間,還記錄了該課程同步模擬考試的結(jié)果,具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學習次數(shù)”、“學習總時長”,記錄共有18 476條。部分示例如表1所示。
3.3數(shù)據(jù)處理
通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,可以使得建立的模型更簡單、準確[6]。
為了構(gòu)造新的衍生特征信息,這里增加一個輸入字段,使用WPS 表格10.1軟件增加“次平均學習時長”列,列值為使用公式計算學習總時長/學習次數(shù)的結(jié)果。
由于直接使用表格文件,這里無需添加本地數(shù)據(jù)源,在Clementine軟件中直接添加Excel“源”節(jié)點,命名為“學習考核情況”,導入對應(yīng)的數(shù)據(jù)文件和工作表。在“過濾”中配置字段篩選,縮小處理范圍,清除無用字段(如“所屬部門”、“用戶名”、“姓名”字段),如圖1所示。預處理后的總數(shù)據(jù)記錄數(shù)不變(圖1字段過濾數(shù)據(jù)格式如表2所示)。添加“類型”節(jié)點設(shè)置各字段“數(shù)據(jù)類型”和“方向”,“考核狀況”對應(yīng)“標志”類型,“學習次數(shù)”對應(yīng)“集”類型,“次平均學習時長”對應(yīng)“范圍”類型,如圖2所示。
通過“重新分類”節(jié)點對學習次數(shù)進行規(guī)范化分類,這里根據(jù)數(shù)據(jù)密度分為“1+”、“5+”、“10+”、“30+”,分別代表1≤學習次數(shù)圖2數(shù)據(jù)類型≤4、5≤學習次數(shù)≤9、10≤學習次數(shù)≤29、學習次數(shù)≧30,生成新字段名“學習總次數(shù)分段”。
3.4利用C5.0決策樹算法進行數(shù)據(jù)挖掘
繼續(xù)添加一個C5.0節(jié)點,對數(shù)據(jù)進行挖掘,配置目標字段“考核情況”,輸入字段為“學習總次數(shù)分段”、“次平均學習時長”,“模型”中配置選擇使用分區(qū)數(shù)據(jù),輸出類型為“決策樹”,選擇“組符號”(使用分箱法檢查當前分組變量的各類別能否合并,如果可以先合并再分枝,此方法得到的決策樹相對精簡),修剪嚴重性(置信度)設(shè)置為75%,子分支最小記錄數(shù)為200。
Clementine從讀入數(shù)據(jù)到結(jié)果顯示的數(shù)據(jù)挖掘全過程,是以流程圖的形式顯示在數(shù)據(jù)流程區(qū)內(nèi)的,如圖3所示。每個節(jié)點規(guī)定了數(shù)據(jù)的不同操作,箭頭表示數(shù)據(jù)流向,各種操作組合起來就形成了通向目標的路徑。將前面的節(jié)點相連接,執(zhí)行結(jié)果“考核結(jié)果”會出現(xiàn)在軟件主界面右上角管理器“模型”中,瀏覽這個模型可以看到數(shù)據(jù)圖3Clementine數(shù)據(jù)流程區(qū)
挖掘結(jié)果。需要注意的是,可以對各節(jié)點添加輸出節(jié)點“表”觀察各節(jié)點數(shù)據(jù)情況(可以將模型結(jié)果添加進數(shù)據(jù)流程區(qū)并輸出)。
針對實驗數(shù)據(jù)執(zhí)行決策樹模型“考核結(jié)果”,生成規(guī)則集(如圖4所示)和決策樹模型(如圖5所示)。
3.5考試結(jié)果預測模型解讀
次平均學習時長≤0.17小時的學員,“未通過”考試的可能性為88.4%;次平均學習時長>0.17小時的學員,通過考試的可能性為81.4%。次平均學習時長≦0.17小時且學習次數(shù)低于5次的學員,“未通過”考試的可能性為96%;次平均學習時長>0.17小時且學習次數(shù)超過5次的學員,通過考試的可能性為97.8%。在決定考試是否通過的因素中,“次平均學習時長”最重要,其次是“學習次數(shù)”。從實際經(jīng)驗角度看,每次學習時間較長且學習次數(shù)較多的學員,通過考試的概率可能會較大。根據(jù)該網(wǎng)絡(luò)學習平臺的課程學習和考試數(shù)據(jù),并使用較為先進的Clementine數(shù)據(jù)挖掘軟件構(gòu)建的C5.0決策樹模型,量化反映了網(wǎng)絡(luò)學習和考試的這一現(xiàn)象;又由于軟件建模時采用分區(qū)數(shù)據(jù),提高了模型在不同樣本集上的穩(wěn)健性,因此獲得的預測模式較為可信。
各類網(wǎng)絡(luò)學習平臺可以參考此模型更好地指導學員在線學習,有針對性地提出學習建議,如提醒學員上網(wǎng)學習和學習次數(shù)等;也可以進一步針對學員進行聚類分析,深度定制課件資源和服務(wù)內(nèi)容,如開發(fā)移動客戶端,提高用戶訪問平臺的便捷性等。
4結(jié)論
隨著網(wǎng)絡(luò)學習平臺的發(fā)展和提升,為更好地貼近用戶需求,深化學習效果,應(yīng)當關(guān)注業(yè)務(wù)提升需求,充分挖掘海量的學習和考試數(shù)據(jù),研究并發(fā)現(xiàn)決定學習效果的關(guān)鍵因素。C5.0算法在面對輸入字段較多的問題時比較穩(wěn)健,也易于理解,同時也擅長處理非數(shù)值型數(shù)據(jù),可以在網(wǎng)絡(luò)學習平臺關(guān)鍵問題預測中發(fā)揮更大的作用。
參考文獻
?。?] 岳偉.建構(gòu)主義學習理論指導下的自學考試網(wǎng)絡(luò)助學策略設(shè)計[J].考試研究,2015(1):915.
?。?] 張軍.數(shù)據(jù)挖掘中自我學習算法研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(11):171,173.
?。?] 陳承斌.基于決策樹算法分析惡意網(wǎng)絡(luò)攻擊和入侵[J].信息與電腦(理論版),2010(7):15.
?。?] 陳春茶.數(shù)據(jù)挖掘技術(shù)在移動商務(wù)客戶價值識別中的應(yīng)用研究[D].昆明:云南大學,2012.
?。?] 宋海霞,嚴馨,于正濤,等.基于半監(jiān)督主動學習的虛假評論檢測[J].昆明理工大學學報(自然科學版),2015,40(5):5965.
?。?] 張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預測中的應(yīng)用[J].微型機與應(yīng)用,2015,34(15):99102.