葉 斌,余 陽,王 會,黃文富
(成都東軟學院 信息技術與商務管理系,四川 成都 611844)
摘 要: 大數(shù)據(jù)作為下一個生產(chǎn)力的前沿技術在教育領域廣泛應用,將給教育產(chǎn)業(yè)產(chǎn)生積極的推動作用。分析當前MOOC網(wǎng)絡教育發(fā)展狀況,及大數(shù)據(jù)在MOOC網(wǎng)絡教育中的存在方式;研究大數(shù)據(jù)對MOOC教育產(chǎn)生的積極作用,及大數(shù)據(jù)與MOOC網(wǎng)絡教育融合過程中的收集、存儲、計算及應用的技術路線;總結大數(shù)據(jù)為網(wǎng)絡教育服務所要解決的問題。
關鍵詞: 大數(shù)據(jù);MOOC;網(wǎng)絡
0 引言
2008~2012年國家財政性教育經(jīng)費支出五年累計7.79萬億元,年均增長21.58%,占國內(nèi)生產(chǎn)總值比例達到4%[1]。顯然,這是歷史性的,但也必須清醒認識到,這是一個遲到12年才達到的目標,而且是較低的水平,與發(fā)達國家或是中等發(fā)達國家相比,還存在很大的差距。
因此,我國教育產(chǎn)業(yè)還有很大的發(fā)展空間。但由于傳統(tǒng)教育的一次性投資大,投資周期長,使得除政府投入以外,民間資本對教育產(chǎn)業(yè)的投入還不夠。
隨著網(wǎng)絡走進千家萬戶,網(wǎng)絡教育相比傳統(tǒng)的全日制教育有投資小、周期短、實施方便等優(yōu)勢,逐步成為一種新型教育的潮流,成為傳統(tǒng)教育的有力補充。網(wǎng)絡教育成為教育事業(yè)引入民資的有效突破口。近年來,大型開放式網(wǎng)絡課程(Massive Open Online Courses,MOOC)發(fā)展迅速,給更多學生提供了系統(tǒng)學習的可能,成為網(wǎng)絡教育發(fā)展的重大機遇。
目前,世界上最大的課程提供商有Coursera、Udacity、edX。到現(xiàn)在為止,幾乎所有著名的全球頂尖大學都在Coursera上開設了自己的MOOC課程。在國內(nèi),清華大學也在2013年10月發(fā)布了中國大陸第一個由高校主導的MOOC平臺——學堂在線。這一新型學習平臺將發(fā)布清華大學原創(chuàng)課程以及其他國內(nèi)外優(yōu)質的MOOC課程。網(wǎng)易、新浪、過來人等商業(yè)機構也和中國大學合作進行MOOC課程的制作。MOOC蓬勃發(fā)展的同時,一些新的技術手段,特別是大數(shù)據(jù)技術逐漸興起并日趨成熟,更為網(wǎng)絡教育提供了一劑“強心針”。
1 MOOC教育產(chǎn)業(yè)中的大數(shù)據(jù)
1.1 大數(shù)據(jù)作為教育領域的新動力
2011年6月,美國咨詢界的翹楚麥肯錫咨詢公司發(fā)布了《大數(shù)據(jù):下一個競爭、創(chuàng)新和生產(chǎn)力的前沿領域》的研究報告[2]。這份長達150余頁報告的主要觀點囊括了大數(shù)據(jù)對國民經(jīng)濟各部門生產(chǎn)效率的推動、大數(shù)據(jù)的快速增長及IT技術對產(chǎn)能的貢獻率等。自此,大數(shù)據(jù)逐漸被大家所認識,并應用至各個行業(yè)中。而其與網(wǎng)絡密不可分的關系,使大數(shù)據(jù)在商業(yè)智能、公共服務和市場營銷、教育等領域成為首要應用目標。
大數(shù)據(jù)的定義在學術界還沒有形成共識,但也有一些大家所共同認可的認識。即大數(shù)據(jù)是指用現(xiàn)有技術難以在可接受的時間內(nèi)管理、處理和分析的數(shù)據(jù)集。廣義上,大數(shù)據(jù)包含三層內(nèi)涵:一是數(shù)據(jù)量巨大、來源多樣和類型多樣的數(shù)據(jù)集;二是新型的數(shù)據(jù)管理和分析技術;三是運用數(shù)據(jù)分析形成新價值。
1.2 大數(shù)據(jù)在MOOC教育中的存在方式
在整個MOOC教育過程中,隨時都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)來自于學習者、與學習者相關的家庭成員、朋友、同學、教師以及MOOC教育提供商,甚至學習者的社交網(wǎng)絡等數(shù)據(jù)源。這些數(shù)據(jù)只有少量被MOOC教育系統(tǒng)所記錄,而且沒有經(jīng)過分析、整理,導致數(shù)據(jù)的價值被浪費。
這些數(shù)據(jù)可以大致分為三類:結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)[3]。結構化數(shù)據(jù)主要來自于學習者的注冊信息、MOOC系統(tǒng)自動存進數(shù)據(jù)庫的學習數(shù)據(jù)表、調查問卷等二維表,這些數(shù)據(jù)的數(shù)據(jù)價值密度最高,最有可能被分析利用;半結構化數(shù)據(jù)主要來自于電郵、網(wǎng)頁,網(wǎng)絡日志等數(shù)據(jù);非結構化數(shù)據(jù)主要是與學習者相關的視頻、音頻、傳感數(shù)據(jù)等。半結構化數(shù)據(jù)和非結構化數(shù)據(jù)價值密度較低,需要借助大數(shù)據(jù)技術提取和處理,例如FaceBook的Scribe、Apache的Sqoop,以及適合Hadoop處理的Chukwa等。
2 大數(shù)據(jù)背景下MOOC教育的機遇與挑戰(zhàn)
2.1 MOOC教育對傳統(tǒng)教育的沖擊
MOOC教育的產(chǎn)生對傳統(tǒng)教育的沖擊很大,學習者,特別是高層次學習者,不再那么依靠傳統(tǒng)意義上的教師,甚至有些教師擔心由此失業(yè)。這種沖擊主要表現(xiàn)在:
?。?)學生-教師比例反轉。傳統(tǒng)教育中,往往是很多學生面對一個教師,享受的教育資源相對較少,而MOOC教育使得這種情況產(chǎn)生了反轉,即一個學生可以面對很多不同教師,得到更充足的教育資源。
?。?)工具資源多元化。MOOC課程可以融合多種社交網(wǎng)絡工具和數(shù)字化的學習資源,從而使學習工具更加多樣化,學習資源更加豐富。
?。?)課程更易于使用。由于依托互聯(lián)網(wǎng)學習突破時空限制,學習者在家即可學到國內(nèi)外著名高校課程。
?。?)課程參與自主性。MOOC課程完全由學習者自己決定是否進行學習,何時進行學習,使學習者能更加靈活地安排自己的學習計劃,同時也要求學習者有較強自主學習能力。
?。?)課程受眾面更廣。突破傳統(tǒng)教育中實體教室的限制,能滿足大規(guī)模課程學習者學習。
2.2 當前MOOC教育所面臨的挑戰(zhàn)
MOOC作為一種新型的教育方式與傳統(tǒng)教育相比,有其得天獨厚的優(yōu)勢,但也有其劣勢阻礙了它的蓬勃發(fā)展。其中,最嚴重的問題是學習者的個性化學習不足。傳統(tǒng)教育中教師與學生面對面,學生的一舉一動、學習情況大部分都被教師所掌控,教師能根據(jù)實際情況對學習者的學習進行有針對性的指導,學習者也能根據(jù)教師的提醒及時改進學習策略,從而使學習更加有針對性。而MOOC教育雖然也可以用一些網(wǎng)絡技術手段讓學習者與教師面對面,但效果并不理想,教師并不能對學習者的實際情況及時地了解并提出解決措施,也不能了解學習者所需要的課程內(nèi)容。
MOOC教育很大程度上依賴于學習者的自主性,從而導致有時候連學習者本身都不清楚自己的學習情況,忽略了一些重要的學習信息,例如學習內(nèi)容之間的聯(lián)系、學習程度、學習進度的安排、階段學習目標、下一步的學習內(nèi)容等,這些都會導致學習的盲目性。
2.3 大數(shù)據(jù)給MOOC教育提供機遇
大數(shù)據(jù)使得學習更加個性化。美國教育部一份簡報中指出,大數(shù)據(jù)在教育領域的應用主要為學習分析(LA)和教育數(shù)據(jù)挖掘(EDM)[4],而兩者在教育技術領域內(nèi)的應用最終指向個性化學習和自適應學習環(huán)境的研究和開發(fā)。以大數(shù)據(jù)為基礎,LA和EDM能夠更好地分析學習者的需求和特點,從而使得學習更傾向于個性化[5]。
3 大數(shù)據(jù)在MOOC網(wǎng)絡教育產(chǎn)業(yè)的應用路線
MOOC教育產(chǎn)業(yè)要想在激烈的競爭中立于不敗之地,需要用數(shù)據(jù)驅動產(chǎn)業(yè)的發(fā)展。大數(shù)據(jù)在一個新的領域中應用,需要經(jīng)歷從無意識,到初步了解,再到試驗性階段,出現(xiàn)產(chǎn)業(yè)機遇,發(fā)生產(chǎn)業(yè)變革,最后驅動產(chǎn)業(yè)發(fā)展這樣一個長期的過程。如下圖1所示。
大數(shù)據(jù)在應用過程中,需要與傳統(tǒng)的數(shù)據(jù)采集、存儲、計算方法結合起來,同時利用最新的大數(shù)據(jù)技術使得結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)能被充分利用。
在數(shù)據(jù)采集階段,可根據(jù)不同的情況采用Flume、Sqoop、Scribe、Chukwa等系統(tǒng)。它們各有優(yōu)勢,例如,F(xiàn)lume是cloudera于2009年7月開源的日志系統(tǒng),它內(nèi)置的各種組件非常齊全,用戶幾乎不必進行任何額外開發(fā)即可使用。Scribe是Facebook開源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到大量的應用。它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(tǒng)上,以便于進行集中統(tǒng)計分析處理。Sqoop是Apache下用于RDBMS和HDFS互相導數(shù)據(jù)的工具。作為Apache的一個開源項目文件,Sqoop的源碼可以用于從異構的數(shù)據(jù)庫導入統(tǒng)一的云計算平臺,操作非常簡單。Chukwa簡單地說是一個數(shù)據(jù)收集系統(tǒng),它可以將各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件并保存在HDFS中供Hadoop進行各種MapReduce操作。Chukwa本身也提供了很多內(nèi)置的功能用于數(shù)據(jù)的收集和整理。
在存儲階段,由于大數(shù)據(jù)時代的數(shù)據(jù)數(shù)量級發(fā)生了很大改變,由原來的GB、TB到了PB、ZB,甚至更大。同時,為了提高處理效率,處理方式由集中式處理擴展為分布式處理。因此,對于不同的數(shù)據(jù),既要考慮用傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng),如SQL Server、ORACLE等,也不得不應用最近的數(shù)據(jù)存儲技術和相應的存儲處理系統(tǒng),如Hadoop。無論國內(nèi)還是國外的大公司對于數(shù)據(jù)都有著無窮無盡的渴望,都會想盡一切辦法收集一切數(shù)據(jù),因為通過信息的不對稱性可以不斷變現(xiàn),而大量的信息是可以通過數(shù)據(jù)分析得到的。數(shù)據(jù)的來源途徑非常多,數(shù)據(jù)的格式也越來越多,越來越復雜,隨著時間的推移數(shù)據(jù)量也越來越大。因此在數(shù)據(jù)的存儲和基于數(shù)據(jù)之上的計算上傳統(tǒng)數(shù)據(jù)庫很快趨于瓶頸。而Hadoop正是為了解決這樣的問題而誕生[6]。其底層的分布式文件系統(tǒng)具有高拓展性,通過數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提高計算效率,同時可以存儲各種格式的數(shù)據(jù)。同時其還支持多種計算框架,既可以進行離線計算,也可以進行在線實時計算。
在數(shù)據(jù)計算階段,由于采用的存儲方式不同,計算方法也不一樣。結構化二維表數(shù)據(jù)較為規(guī)則,處理比較方便,一般對傳統(tǒng)的結構化數(shù)據(jù)可進行實時計算,而對于半結構化或非結構化數(shù)據(jù)不得不先進行匯總分析,再進行處理。
最后,在數(shù)據(jù)應用階段,根據(jù)不同的應用要求,對計算和匯總分析的結果應用到不同的子系統(tǒng)中。在MOOC教育產(chǎn)業(yè)中,客戶個性化分析實際上就是在對學習者個性化分析的基礎上進行個性化的教育,給出個性化學習方案。還可以通過數(shù)據(jù)計算結果進行課程營銷分析,以及提供客戶統(tǒng)計查詢服務和學習者管理,即客戶管理。數(shù)據(jù)應用的過程如圖2所示。
4 總結
大數(shù)據(jù)在MOOC網(wǎng)絡教育中時時刻刻都在產(chǎn)生,這些數(shù)據(jù)的價值密度要遠大于社交網(wǎng)的數(shù)據(jù),因為它們較有針對性,是針對學習者的學習,所以對這部分數(shù)據(jù)的價值挖掘非常有必要。同時,與網(wǎng)絡學習相關的網(wǎng)絡結點數(shù)據(jù)和網(wǎng)絡交互數(shù)據(jù),雖然價值密度較低,但對其進行持續(xù)的數(shù)據(jù)收集和數(shù)據(jù)計算,對學習者的個性化分析也能產(chǎn)生巨大作用。教育領域是大數(shù)據(jù)應用的首要目標,對于學習者的個性化教育、人才結構優(yōu)化及個人社會適應度的提高都有很大的幫助。
在大數(shù)據(jù)的應用過程中,對學習者隱私信息的保護是大家所關注的重點,但同時也是不可避免的問題,需要教育主管部門結合法律法規(guī)制定相關的引導性規(guī)定,讓大數(shù)據(jù)得到合理應用的同時避免產(chǎn)生不必要的法律糾紛;其次,應鼓勵與其他大數(shù)據(jù)企業(yè)合作,得到更多高價值密度數(shù)據(jù),為數(shù)據(jù)分析提供充分的資源;最后,提升大數(shù)據(jù)收集、分析與處理技術。這些措施是讓大數(shù)據(jù)在MOOC教育領域持續(xù)發(fā)揮作用的必要保障。
參考文獻
[1] 熊丙奇.中國教育欠債還沒完全補上[J].基礎教育論壇,2013(8):4-5.
[2] 陳響園,張權偉.大數(shù)據(jù)背景下中國交通廣播的“?!迸c“機”——以杭州交通經(jīng)濟廣播91.8為例[J].現(xiàn)代傳播,2014(3):130.
[3] 謝華成,陳向東.面向云存儲的非結構化數(shù)據(jù)存取[J].計算機應用,2012,32(7):1924-1928,1942.
[4] U.S.Department of Education, Office of Educational Technology. Enhancing teaching and learning through educational data mining and learning analytics: an issue brief [EB/OL].(2013-5-20).http://www.ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.
[5] 祝智庭,管玨琪.“網(wǎng)絡學習空間人人通”建設框架[J].中國電化教育,2013(10):6-12.
[6] 曹坤.為什么很多公司的大數(shù)據(jù)相關業(yè)務都基于Hadoop方案[EB/OL].(2014-06-25)[2015-02-06].http://bbs.pinggu.org/forum.php mod=viewthread&tid=3104026&page=1.