文獻標識碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黃偉強,劉海,梁韜文,等. 針對在線教育情感分析的數(shù)據(jù)擴充研究[J].網(wǎng)絡安全與數(shù)據(jù)治理,2022,41(1):93-100.
0 引言
隨著信息技術的飛速發(fā)展,在線教育逐漸興起,越來越多的人在在線教育課程中留下了有價值的評論,通過對這些評論進行情感分析可以達到多方面的目的,如分析學生對課程的滿意度、調(diào)查老師授課水平、挖掘課程質(zhì)量等。
情感分析(Sentiment Analysis),又稱為情感傾向性分析[1],目的是找出文本中情感的正負性,如正面或負面、積極或消極,并且把這種正負性數(shù)值化,以百分比或者正負值的方式表現(xiàn)出來。情感分析的研究方法大致可以分為兩種:一是基于情感詞典的情感分析[2],主要通過建立情感詞典或領域詞典及通過文本中帶有極性的情感詞進行計算來獲取文本的極性,由于依賴于情感詞典,存在覆蓋率不足等缺點;二是基于機器學習的情感分析,包括監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習三種方法,其中與監(jiān)督學習和無監(jiān)督學習相比,半監(jiān)督學習通過少量標注數(shù)據(jù)和大量無標注數(shù)據(jù)進行識別,既不用對所有的數(shù)據(jù)進行標注,也不依賴先驗經(jīng)驗,有較好的實用性,從而被許多學者應用在情感分析問題上,如陳珂等[3]利用基于分類器集成的self-training方法進行情感分析研究,使用少量標注樣本和大量未標注樣本來進行情感分析訓練,準確率達86%。
數(shù)據(jù)擴充[4]是一種結合機器學習使用的方法,在訓練樣本不足的情況下,可使模型訓練更好地擬合,通過與半監(jiān)督的方法相結合,可達到標注少量數(shù)據(jù)以擴充至大量訓練數(shù)據(jù)的效果。數(shù)據(jù)擴充方法目前已被用于圖像、交通、醫(yī)療等領域[5-7],目前主流的數(shù)據(jù)擴充方法有圖像翻轉、隨機噪聲、標簽傳播等[8]。
情感分析目前已被應用于如電影評論、書籍評論、微博短評等多個領域,但在在線教育課程評論領域的應用還較缺乏,把情感分析應用在在線教育課程評論上存在著各種挑戰(zhàn),如評論數(shù)據(jù)的獲取、評論數(shù)據(jù)的標注等。為了解決以上問題,本文借鑒半監(jiān)督學習的方法,提出基于聚類分析的文本數(shù)據(jù)擴充方法:對少量關鍵數(shù)據(jù)進行標注,并通過聚類分析獲得大量已標注數(shù)據(jù)。在目前主流在線教育平臺爬取的569 970條課程評論中選取1 000條關鍵數(shù)據(jù)進行標注并使用本文數(shù)據(jù)擴充方法擴充至10萬條標注數(shù)據(jù),分別利用SVM[9]、RandomForest[10]、AdaBoost[11]、GradientBoost[12]和CNN模型對標注數(shù)據(jù)進行訓練,實驗表明,與目前主流的LabelSpreading算法相比,本文的數(shù)據(jù)擴充方法均有準確率上的優(yōu)勢。
本文詳細內(nèi)容請下載:http://theprogrammingfactory.com/resource/share/2000004618
作者信息:
黃偉強1,劉 海2,梁韜文2,楊海華2
(1.華南師范大學 網(wǎng)絡中心,廣東 廣州510631;2.華南師范大學 計算機學院,廣東 廣州510631)