《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 測(cè)試測(cè)量 > 設(shè)計(jì)應(yīng)用 > 樣本不平衡的睡眠數(shù)據(jù)分期研究
樣本不平衡的睡眠數(shù)據(jù)分期研究
2016年微型機(jī)與應(yīng)用第18期
李玉平, 夏斌
上海海事大學(xué) 信息工程學(xué)院,上海 201306
摘要: 睡眠數(shù)據(jù)中各個(gè)階段的樣本數(shù)差異較大,睡眠數(shù)據(jù)的自動(dòng)分期是一個(gè)典型的樣本不平衡的機(jī)器學(xué)習(xí)問(wèn)題。均衡樣本方法通過(guò)抽樣的手段來(lái)平衡樣本,是解決樣本不平衡問(wèn)題的主要方法。采用均衡樣本方法來(lái)平衡睡眠數(shù)據(jù)的不同階段的樣本,并且結(jié)合多域特征(時(shí)域、頻域、時(shí)頻域以及非線性)和隨機(jī)森林分類(lèi)算法進(jìn)行分類(lèi)預(yù)測(cè)。比較分析了樣本均衡處理和非均衡處理的分類(lèi)結(jié)果,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類(lèi)效果。
Abstract:
Key words :

  李玉平, 夏斌

  (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

       摘要:睡眠數(shù)據(jù)中各個(gè)階段的樣本數(shù)差異較大,睡眠數(shù)據(jù)的自動(dòng)分期是一個(gè)典型的樣本不平衡的機(jī)器學(xué)習(xí)問(wèn)題。均衡樣本方法通過(guò)抽樣的手段來(lái)平衡樣本,是解決樣本不平衡問(wèn)題的主要方法。采用均衡樣本方法來(lái)平衡睡眠數(shù)據(jù)的不同階段的樣本,并且結(jié)合多域特征(時(shí)域、頻域、時(shí)頻域以及非線性)和隨機(jī)森林分類(lèi)算法進(jìn)行分類(lèi)預(yù)測(cè)。比較分析了樣本均衡處理和非均衡處理的分類(lèi)結(jié)果,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類(lèi)效果。

  關(guān)鍵詞:睡眠分期;數(shù)據(jù)不平衡;隨機(jī)森林

0引言

  睡眠是生命過(guò)程中必不可少且十分重要的生理現(xiàn)象。依據(jù)國(guó)際R&K標(biāo)準(zhǔn)[1],睡眠期可分為快速眼動(dòng)期、非快速眼動(dòng)期(S1,S2,S3,S4)以及清醒期,區(qū)別分期主要以眼球是否進(jìn)行了陣發(fā)性快速運(yùn)動(dòng)為標(biāo)準(zhǔn)。根據(jù)上述睡眠分期標(biāo)準(zhǔn),睡眠數(shù)據(jù)可分為6類(lèi),且不同類(lèi)別的數(shù)據(jù)量之間具有較大的差異性,即睡眠數(shù)據(jù)分期存在樣本不平衡的問(wèn)題。在應(yīng)用機(jī)器學(xué)習(xí)研究睡眠分期過(guò)程中,樣本不平衡會(huì)導(dǎo)致睡眠分期結(jié)果不準(zhǔn)確,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠數(shù)據(jù)特征的提取以及分類(lèi)算法的選?。?4],并沒(méi)有研究睡眠分期樣本不平衡問(wèn)題。本文采用EEG、EOG、EMG 3種信號(hào)5個(gè)通道的睡眠數(shù)據(jù),研究中發(fā)現(xiàn),EOG信號(hào)會(huì)出現(xiàn)在EEG信號(hào)的一些睡眠分期(如清醒狀態(tài)和快速眼動(dòng)狀態(tài))中,這種數(shù)據(jù)會(huì)對(duì)睡眠分期產(chǎn)生不好的影響[5]。本文通過(guò)對(duì)睡眠分期樣本不平衡的研究以及信號(hào)混雜的處理,進(jìn)一步提高睡眠分期的準(zhǔn)確度,同時(shí)對(duì)相關(guān)睡眠疾病的診斷和治療提供重要的參考意義。

  基于以上睡眠數(shù)據(jù)分期的討論,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問(wèn)題,同時(shí)研究睡眠數(shù)據(jù)的特征提取以減少信號(hào)混雜對(duì)睡眠分期的影響。

1方法

  1.1特征提取

  睡眠數(shù)據(jù)的特征主要?jiǎng)澐譃闀r(shí)域特征、頻域特征、時(shí)頻域特征以及非線性特征。本文中,提取EEG、EOG和EMG每種信號(hào)各38種特征。

  特征參數(shù)如下:第1~6種是6個(gè)時(shí)域特征[68]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、過(guò)零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19種是頻域特征[810]:對(duì)4個(gè)子節(jié)律波分別提取各自范圍的功率譜能量(SP_),計(jì)算0.01~30 Hz頻帶的總功率譜能量(SP_D),以及總功率譜能量的規(guī)范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35種是時(shí)頻域特征[810]:4個(gè)子節(jié)律波在當(dāng)前頻帶范圍上小波系數(shù)的均值、能量、標(biāo)準(zhǔn)差以及相對(duì)于總頻帶范圍的絕對(duì)平均值;第36~38種特征分別是Petrosian分形指數(shù)、Hurst指數(shù)、排列熵[1112]。

  1.2均衡采樣

  睡眠數(shù)據(jù)存在樣本不平衡的問(wèn)題,在6類(lèi)的數(shù)據(jù)中,最多一類(lèi)的數(shù)據(jù)集與最少的一類(lèi)數(shù)據(jù)集的比例達(dá)到10倍以上,存在嚴(yán)重不平衡現(xiàn)象。本文應(yīng)用均衡采樣的方法處理樣本失衡的問(wèn)題[13]:(1)分別計(jì)算6類(lèi)睡眠分期數(shù)據(jù)的個(gè)數(shù)n1、n2、n3、n4、n5、n6;(2)去掉個(gè)數(shù)最少和個(gè)數(shù)最多的個(gè)數(shù)值,剩余為n1、n2、n3、n4,計(jì)算這4類(lèi)個(gè)數(shù)的平均值n;(3)對(duì)6類(lèi)數(shù)據(jù)按個(gè)數(shù)平均值n采樣,不足平均個(gè)數(shù)的類(lèi)別重復(fù)采樣,超過(guò)平均個(gè)數(shù)的類(lèi)別欠采樣;(4)整合6類(lèi)數(shù)據(jù)采樣得到的新數(shù)據(jù)集即為均衡處理后的數(shù)據(jù)[4,14]。

  1.3隨機(jī)森林分類(lèi)器

  隨機(jī)森林模型是決策樹(shù)集成的算法,并且由一隨機(jī)向量決定決策樹(shù)的構(gòu)造。通過(guò)訓(xùn)練集得到隨機(jī)森林模型后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入時(shí),就讓隨機(jī)森林的每一棵決策樹(shù)分別進(jìn)行判斷,判斷樣本所屬類(lèi)別,然后計(jì)算哪一個(gè)類(lèi)別被選擇最多,就預(yù)測(cè)該樣本所屬的類(lèi)別。隨機(jī)森林算法特征參數(shù)較多,測(cè)試結(jié)果不會(huì)出現(xiàn)過(guò)擬合的情形;能夠處理高維度特征的睡眠數(shù)據(jù),不用做特征選擇,對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng);訓(xùn)練速度快,能夠檢測(cè)不同特征之間的影響[13,15]。

  隨機(jī)森林實(shí)現(xiàn)過(guò)程為:(1)原始訓(xùn)練集為N,采用集成算法有放回地隨機(jī)選取k個(gè)樣本集構(gòu)建k棵分類(lèi)樹(shù),每次沒(méi)有被抽到的樣本組成k個(gè)袋外數(shù)據(jù);(2)設(shè)定mall變量,在每棵樹(shù)的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取mtry個(gè)變量(mtry,n,mall),然后在mtry中選擇一個(gè)最佳的分類(lèi)變量,變量分類(lèi)的閾值通過(guò)檢查每一個(gè)分類(lèi)點(diǎn)確定;(3)每一棵樹(shù)最大限度地生長(zhǎng),不做任何修剪;(4)將構(gòu)造的多棵分類(lèi)樹(shù)組成隨機(jī)森林,用隨機(jī)森林分類(lèi)器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類(lèi),分類(lèi)的結(jié)果按樹(shù)分類(lèi)器投票數(shù)確定。

2實(shí)驗(yàn)與結(jié)果

  2.1數(shù)據(jù)

  本文采用9名受試者的睡眠數(shù)據(jù)來(lái)驗(yàn)證分類(lèi)方法和數(shù)據(jù)不平衡處理的可行性。數(shù)據(jù)集記錄了這9名志愿者一晚上的睡眠數(shù)據(jù),以1~9命名這些數(shù)據(jù)集。數(shù)據(jù)包含15個(gè)通道的睡眠時(shí)的信號(hào)數(shù)據(jù)以及呼吸頻率和身體溫度。對(duì)應(yīng)的EEG、EOG、EMG信號(hào)按100 Hz進(jìn)行采樣。數(shù)據(jù)集處理部分,分別進(jìn)行了7/3分和留一方法,采用這兩種方法驗(yàn)證睡眠分期樣本不平衡的處理效果。

  2.2數(shù)據(jù)預(yù)處理

  首先采用巴特沃夫?yàn)V波器提取原始睡眠數(shù)據(jù)中0.01~35 Hz的數(shù)據(jù),并應(yīng)用高斯歸一化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理。由于采樣的睡眠數(shù)據(jù)可能存在標(biāo)簽不正確的問(wèn)題,因此會(huì)剔除不正確的標(biāo)簽數(shù)據(jù)。具體方法是,首先找出空標(biāo)簽或標(biāo)簽異常(不在已有類(lèi)別中的標(biāo)簽),根據(jù)標(biāo)簽對(duì)應(yīng)的位置,剔除這些標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)集,最后更新數(shù)據(jù)集。采用以上方法進(jìn)行數(shù)據(jù)預(yù)處理之后,得到7 461條數(shù)據(jù)。

  2.3均衡采樣數(shù)據(jù)

  經(jīng)預(yù)處理和特征提取之后,對(duì)9個(gè)受試者的數(shù)據(jù)進(jìn)行整合,數(shù)據(jù)總量為59 680。采用7/3分?jǐn)?shù)據(jù)集,即70%數(shù)據(jù)做訓(xùn)練集,30%數(shù)據(jù)做測(cè)試集,訓(xùn)練集數(shù)據(jù)量為41 773,測(cè)試集數(shù)據(jù)量為17 907。為了驗(yàn)證均衡采樣的可行性,對(duì)訓(xùn)練集做均衡處理,得到22 465條新的訓(xùn)練集。

  2.4結(jié)果

  本文第一種驗(yàn)證方法是7/3數(shù)據(jù)集,結(jié)果如下:表1是所有數(shù)據(jù)集7/3分,對(duì)訓(xùn)練集進(jìn)行均衡處理的分類(lèi)結(jié)果準(zhǔn)確率;表2是均衡采樣數(shù)據(jù)集和普通數(shù)據(jù)集分類(lèi)結(jié)果對(duì)比;表3是不同信號(hào)組合,均衡采樣分類(lèi)結(jié)果對(duì)比。

圖像 002.png

圖像 003.png

圖像 004.png

圖像 001.png

第二種驗(yàn)證方法是對(duì)9個(gè)受試者的數(shù)據(jù)集進(jìn)行留一驗(yàn)證。分別提取其中8個(gè)受試者的數(shù)據(jù)集作為訓(xùn)練集做均衡處理,剩下1個(gè)受試者的數(shù)據(jù)集作為測(cè)試集。分類(lèi)結(jié)果如圖1所示。

  由表1得知,同時(shí)考慮EEG、EOG、EMG 3種信號(hào)5個(gè)通道的數(shù)據(jù)集,得到的分類(lèi)準(zhǔn)確率達(dá)到84.33%,wake類(lèi)別的分類(lèi)準(zhǔn)確率最高,模型對(duì)wake類(lèi)別的泛化能力最好,而S1類(lèi)別數(shù)據(jù)量最少,同時(shí)分類(lèi)效果也最差。由表2得知:均衡處理之后,wake、S1、S3、rem這4類(lèi)睡眠分期結(jié)果得到了提升,S4基本一致,S2的結(jié)果降低了。由表3知:提取一種信號(hào)EEG時(shí),睡眠分期準(zhǔn)確率比同時(shí)提取多種信號(hào)時(shí)的準(zhǔn)確率低。由圖1留一驗(yàn)證知,2、5、9號(hào)受試者睡眠分期的結(jié)果達(dá)到了80%以上,分類(lèi)效果較好;3、6號(hào)受試者睡眠分期準(zhǔn)確率較低。

3結(jié)論

  本研究采用了EEG、EOG、EMG 3種信號(hào)5個(gè)通道數(shù)據(jù)集,并且應(yīng)用均衡采樣的方法處理訓(xùn)練集數(shù)據(jù)不平衡問(wèn)題,睡眠分期結(jié)果較好,平均分類(lèi)準(zhǔn)確率得到了提升,并且有4個(gè)睡眠分期的分類(lèi)結(jié)果都得到了提升。在今后對(duì)睡眠分期樣本不平衡的研究中,可以采用加權(quán)隨機(jī)森林或其他的方法處理睡眠數(shù)據(jù)集不平衡的問(wèn)題。

  參考文獻(xiàn)

 ?。?] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.

 ?。?] 李谷,范影樂(lè),龐全.基于排列組合熵的腦電信號(hào)睡眠分期研究[J].生物醫(yī)學(xué)工程學(xué)志,2009,26(4):869-872.

 ?。?] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.

 ?。?] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.

 ?。?] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.

  [6] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.

 ?。?] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.

 ?。?] QQ圖片20161023220227.pngA comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.

 ?。?] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.

 ?。?0] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.

 ?。?1] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.

 ?。?2] PEREDA E, GAMUNDI A, RIAL R, et al. Nonlinear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.

  [13] 毛文濤,王金婉,等.面向貫序不均衡數(shù)據(jù)的混合采樣極限學(xué)習(xí)機(jī)[J].計(jì)算機(jī)應(yīng)用,2015, 35(8):2221-2226.

  [14] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.

 ?。?5] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5=32.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。