周小明1,陳 剛1,楊宏宇2
?。?.國(guó)網(wǎng)遼寧省電力有限公司,遼寧 沈陽(yáng)110006;2.南瑞集團(tuán)公司信息通信技術(shù)分公司,江蘇 南京210003)
摘 要: 本文研究了電力企業(yè)指標(biāo)的數(shù)據(jù)形態(tài)和業(yè)務(wù)形態(tài),確定指標(biāo)數(shù)據(jù)在一定時(shí)間階段內(nèi)是否穩(wěn)定(業(yè)務(wù)是否穩(wěn)定),發(fā)現(xiàn)指標(biāo)在時(shí)間序列的變化特征,以及觀察指標(biāo)數(shù)據(jù)在每個(gè)時(shí)間周期內(nèi)是否呈線性趨勢(shì),應(yīng)用統(tǒng)計(jì)學(xué)及數(shù)據(jù)挖掘方法,結(jié)合業(yè)務(wù)的精細(xì)化需要,提出了適用于不同特性指標(biāo)的三種閾值設(shè)置方法,包括正態(tài)分布指標(biāo)閾值設(shè)置方法、時(shí)間序列指標(biāo)閾值設(shè)置方法以及線性擬合指標(biāo)閾值設(shè)置方法。實(shí)驗(yàn)結(jié)果表明,本文提出的三種閾值設(shè)置方法能夠反映業(yè)務(wù)實(shí)際,對(duì)國(guó)家電網(wǎng)的運(yùn)營(yíng)監(jiān)測(cè)有著重要意義。
關(guān)鍵詞: 數(shù)據(jù)挖掘;正態(tài)分布;時(shí)間序列;線性擬合;閾值設(shè)置
0 引言
國(guó)家電網(wǎng)運(yùn)營(yíng)監(jiān)測(cè)中心對(duì)各業(yè)務(wù)部門進(jìn)行指標(biāo)數(shù)據(jù)監(jiān)測(cè)的主要根據(jù)是業(yè)務(wù)專家知識(shí)和經(jīng)驗(yàn)[1-2],所以對(duì)專家的業(yè)務(wù)水平有很大的依賴性。本文將數(shù)據(jù)挖掘的方法引入到電力企業(yè)指標(biāo)閾值設(shè)置的研究領(lǐng)域,用時(shí)間序列模型反映數(shù)據(jù)時(shí)間變化特征[3-5],用正態(tài)分布反映數(shù)據(jù)的穩(wěn)定性[6-7],用線性擬合體現(xiàn)數(shù)據(jù)的線性變化趨勢(shì)[8],在一定程度上解決了以往設(shè)置的閾值缺少客觀依據(jù)的現(xiàn)狀。
1 指標(biāo)閾值設(shè)置方法
本文介紹了三種指標(biāo)閾值設(shè)置方法,包括正態(tài)分布方法、時(shí)間序列方法、線性擬合方法,其中涉及到的正態(tài)分布有效性檢驗(yàn)、時(shí)間序列建模條件檢驗(yàn)和模型創(chuàng)建,以及線性擬合均采用工具Pluto數(shù)據(jù)挖掘平臺(tái)實(shí)現(xiàn)。
1.1 正態(tài)分布
1.1.1 正態(tài)分布算法介紹
正態(tài)分布是實(shí)踐中應(yīng)用最為廣泛、在理論上研究最多的分布之一,它在概率統(tǒng)計(jì)中占用特別重要的地位。
正態(tài)分布的概率密度函數(shù)為:
正態(tài)分布的3規(guī)則如圖1所示,置信區(qū)間如表1。
1.1.2 正態(tài)分布指標(biāo)閾值設(shè)置方法
正態(tài)分布指標(biāo)閾值設(shè)置方法,首先需要判斷指標(biāo)數(shù)據(jù)是否符合正態(tài)分布,若符合正態(tài)分布,則選取最近周期的指標(biāo)數(shù)據(jù)作為分析對(duì)象,計(jì)算該樣本數(shù)據(jù)的均值與標(biāo)準(zhǔn)差,根據(jù)正態(tài)分布置信區(qū)間的覆蓋率,結(jié)合業(yè)務(wù)的精細(xì)化需要,上下限圍繞中心點(diǎn)(均值)做2個(gè)標(biāo)準(zhǔn)差的波動(dòng)形成指標(biāo)閾值。
1.1.3 適用于正態(tài)分布閾值設(shè)置方法的指標(biāo)特性
(1)在一段較長(zhǎng)時(shí)間周期內(nèi)(1年以上),業(yè)務(wù)是穩(wěn)定的、收斂的。數(shù)據(jù)呈現(xiàn)出來(lái)的形式是趨近與某一點(diǎn),并在一定范圍內(nèi)波動(dòng)。
(2)在正態(tài)分布有效性檢驗(yàn)中P值>0.05時(shí),說(shuō)明樣本數(shù)據(jù)符合正態(tài)分布形態(tài)。
(3)適用于服從正態(tài)分布的數(shù)據(jù)。
(4)受連續(xù)時(shí)間因素干擾較小。
1.2 時(shí)間序列
1.2.1 時(shí)間序列算法介紹
時(shí)間序列法是一種定量預(yù)測(cè)方法,在數(shù)據(jù)挖掘中作為一種常用的預(yù)測(cè)手段被廣泛應(yīng)用。對(duì)時(shí)間序列建模的兩個(gè)任務(wù),一是分析當(dāng)期數(shù)據(jù)如何受前幾期的數(shù)據(jù)影響,二是變量在時(shí)間變化上的規(guī)律性。
本文選用的時(shí)間序列算法為ARIMA算法。
ARIMA模型是將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列,然后將因變量?jī)H對(duì)它的滯后值以及隨機(jī)誤差項(xiàng)的現(xiàn)值和滯后值進(jìn)行回歸所建立的模型。在ARIMA模型的識(shí)別過程中,主要用到兩個(gè)工具:一是自相關(guān)函數(shù)(簡(jiǎn)稱ACF),二是偏自相關(guān)函數(shù)(簡(jiǎn)稱PACF)以及它們各自的相關(guān)圖(即ACF、PACF相對(duì)于滯后長(zhǎng)度描圖)。對(duì)于一個(gè)序列y來(lái)說(shuō),它的第k階自相關(guān)系數(shù)(記作rk)定義為它的k階自協(xié)方差除以它的方差。
它是關(guān)于k的函數(shù),因此也稱之為自相關(guān)函數(shù),通常記為ACF(k)。偏自相關(guān)函數(shù)PACF(k)度量了消除中間滯后項(xiàng)影響后兩滯后變量之間的相關(guān)關(guān)系。
ARIMA(p,d,q)模型是經(jīng)過d階差分變換后的ARMA(p,q)模型,ARMA(p,q)模型的一般形式:
ARIMA(p,d,q)模型的算法如下:
(1)對(duì)原序列進(jìn)行平穩(wěn)性檢驗(yàn),如果序列不滿足平穩(wěn)性條件,可以通過差分變換(單整階數(shù)為d,則進(jìn)行d階差分)或者其他變換,如對(duì)數(shù)差分變換使序列滿足平穩(wěn)性條件。
(2)通過計(jì)算能夠描述序列特征的一些統(tǒng)計(jì)量(如自相關(guān)系數(shù)和偏自相關(guān)系數(shù)),來(lái)確定ARMA模型的階數(shù)p和q,并在初始估計(jì)中選擇盡可能少的參數(shù)。
(3)估計(jì)模型的未知參數(shù),并檢驗(yàn)參數(shù)的顯著性,以及模型本身的合理性。
(4)進(jìn)行診斷分析,以證實(shí)所得模型確實(shí)與所觀察到的數(shù)據(jù)特征相符。
1.2.2 時(shí)間序列指標(biāo)閾值設(shè)置方法
時(shí)間序列指標(biāo)閾值設(shè)置方法,首先需要對(duì)時(shí)間上連續(xù)的指標(biāo)數(shù)據(jù)進(jìn)行時(shí)間序列建模條件檢驗(yàn),如果數(shù)據(jù)既滿足平穩(wěn)性,又具有相關(guān)性,則應(yīng)用ARIMA算法對(duì)樣本數(shù)據(jù)進(jìn)行ARIMA時(shí)間序列建模,對(duì)模型性能進(jìn)行評(píng)估,若模型可用,則以模型創(chuàng)建過程中形成的樣本預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)的偏差為分析對(duì)象,計(jì)算其誤差均值與誤差標(biāo)準(zhǔn)差,根據(jù)正態(tài)分布置信區(qū)間與樣本覆蓋率的對(duì)照關(guān)系,結(jié)合業(yè)務(wù)的精細(xì)化需要,上下限圍繞指標(biāo)當(dāng)前預(yù)測(cè)值做2個(gè)標(biāo)準(zhǔn)差的波動(dòng)形成指標(biāo)閾值。
1.2.3 適用于時(shí)間序列閾值設(shè)置方法的指標(biāo)特性
(1)當(dāng)指標(biāo)數(shù)據(jù)或者一階差分平穩(wěn)性檢驗(yàn)<0.05,且檢驗(yàn)?zāi)P椭袛?shù)據(jù)存在自相關(guān)和偏自相關(guān)性(相關(guān)性檢測(cè)圖中,存在自相關(guān)系數(shù)、偏自相關(guān)系數(shù)超出±2倍估計(jì)標(biāo)準(zhǔn)差)時(shí),說(shuō)明樣本數(shù)據(jù)適合時(shí)間序列算法。
(2)適用于連續(xù)時(shí)間點(diǎn)數(shù)據(jù)序列,當(dāng)數(shù)據(jù)因?yàn)閿?shù)據(jù)質(zhì)量出現(xiàn)缺值時(shí)應(yīng)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后才能使用時(shí)間序列。
(3)不適用與在連續(xù)時(shí)間序列中出現(xiàn)多個(gè)異常點(diǎn)的情況。
1.3 線性擬合
1.3.1 線性擬合算法介紹
若兩組數(shù)據(jù)X和Y具有統(tǒng)計(jì)關(guān)系而且是線性關(guān)系,那么就可以建立回歸模型:
。
1.3.2 線性擬合指標(biāo)閾值設(shè)置方法
線性擬合指標(biāo)閾值設(shè)置方法是,首先需要觀察指標(biāo)歷史數(shù)據(jù)的變化趨勢(shì),如果數(shù)據(jù)在每個(gè)時(shí)間周期內(nèi)呈線性趨勢(shì),并且不同時(shí)間周期數(shù)據(jù)的變化趨勢(shì)近似相同,則對(duì)每個(gè)時(shí)間周期內(nèi)的數(shù)據(jù)分別應(yīng)用線性擬合算法進(jìn)行一元線性回歸,若擬合度R2都大于0.95,則選擇最近時(shí)間周期內(nèi)的數(shù)據(jù)及線性擬合函數(shù),以該樣本預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)的偏差為分析對(duì)象,計(jì)算其誤差均值與誤差標(biāo)準(zhǔn)差,按正態(tài)分布置信區(qū)間與樣本覆蓋率的對(duì)照關(guān)系,結(jié)合業(yè)務(wù)的精細(xì)化需要,上下限圍繞指標(biāo)當(dāng)前預(yù)測(cè)值做3個(gè)標(biāo)準(zhǔn)差的波動(dòng)形成指標(biāo)閾值。
1.3.3 適用于線性擬合閾值設(shè)置方法的指標(biāo)特性
(1)在每個(gè)時(shí)間周期(一般選擇1年為一個(gè)周期)內(nèi),業(yè)務(wù)是穩(wěn)定的。數(shù)據(jù)在每個(gè)時(shí)間周期內(nèi)呈線性趨勢(shì),并且不同時(shí)間周期數(shù)據(jù)的變化趨勢(shì)近似相同(即不同時(shí)間周期內(nèi)同一時(shí)間點(diǎn)的指標(biāo)值幾乎相同)。比較適用于指標(biāo)的累計(jì)值。
(2)對(duì)每個(gè)時(shí)間周期內(nèi)的數(shù)據(jù)進(jìn)行線性擬合,擬合度R2都需大于0.95。
(3)適用于具有線性趨勢(shì)的數(shù)據(jù)。
(4)受連續(xù)時(shí)間因素干擾較小。
2 實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)在選取數(shù)據(jù)時(shí),依據(jù)運(yùn)營(yíng)監(jiān)測(cè)指標(biāo)體系中的指標(biāo)項(xiàng),采用某省電力公司的3個(gè)指標(biāo)的省數(shù)據(jù)作為研究對(duì)象,運(yùn)用以上介紹的三種指標(biāo)閾值設(shè)置方法進(jìn)行實(shí)驗(yàn)分析。指標(biāo)清單如表2。
2.1 基于正態(tài)分布方法的“總資產(chǎn)周轉(zhuǎn)率”閾值設(shè)置
2.1.1 指標(biāo)數(shù)據(jù)進(jìn)行正態(tài)分布分析
選取總資產(chǎn)周轉(zhuǎn)率當(dāng)期值,2012年1月到2012年12的樣本數(shù)據(jù)進(jìn)行正態(tài)性分布檢測(cè),共計(jì)12條數(shù)據(jù)。利用正態(tài)分布校驗(yàn)?zāi)P头治?,其顯著性指標(biāo)P=0.754,P值大于0.05,說(shuō)明服從正態(tài)分布。校驗(yàn)圖如圖2。
2.1.2 波動(dòng)區(qū)間計(jì)算
以正態(tài)分布置信區(qū)間與分布覆蓋率對(duì)照表為依據(jù),以保證95%的樣本值落入域值范圍作為異動(dòng)監(jiān)測(cè)要求。
利用正態(tài)分布統(tǒng)計(jì)分析模型,計(jì)算所提供的2012年的12條樣本數(shù)據(jù)的均值與標(biāo)準(zhǔn)差。均值為:9.291,標(biāo)準(zhǔn)差為:0.339,按上下限圍繞中心點(diǎn)做2個(gè)標(biāo)準(zhǔn)差的波動(dòng)形成指標(biāo)閾值??捎?jì)算得到總資產(chǎn)周轉(zhuǎn)率上限為:9.970,下限為:8.613。
按照上述2012年數(shù)據(jù)得到的閾值,對(duì)2013年1月到10月數(shù)據(jù)(共10條數(shù)據(jù))進(jìn)行覆蓋率測(cè)試,如圖3所示。
2.2 基于時(shí)間序列方法的“單位購(gòu)電成本”閾值設(shè)置
選取單位購(gòu)電成本當(dāng)前值,2008年1月到2013年9月省數(shù)據(jù),共計(jì)69條數(shù)據(jù)(其中,2013年3月和4月數(shù)據(jù)為空)。以2008年1月~2013年2月的數(shù)據(jù)為時(shí)間序列模型使用的樣本數(shù)據(jù),包括模型構(gòu)建樣本數(shù)據(jù)(2008年1月~2012年12月的數(shù)據(jù))與測(cè)試數(shù)據(jù)(2013年1月和2月的數(shù)據(jù)),共計(jì)62條記錄。
2.2.1 樣本數(shù)據(jù)檢驗(yàn)
(1)數(shù)據(jù)的平穩(wěn)性檢驗(yàn)
應(yīng)用檢驗(yàn)?zāi)P偷玫絇=0.951 5,說(shuō)明該數(shù)據(jù)是一組非平穩(wěn)序列。
對(duì)原數(shù)據(jù)進(jìn)行一階差分處理,對(duì)差分后的數(shù)據(jù)再次進(jìn)行平穩(wěn)性檢驗(yàn),P=0.000 0,此時(shí)數(shù)據(jù)具有平穩(wěn)性。說(shuō)明原數(shù)據(jù)具有一階平穩(wěn)性。
(2)數(shù)據(jù)的相關(guān)性檢驗(yàn)
對(duì)一階差分后的數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn),具有相關(guān)性(包括自相關(guān)和偏自相關(guān))。相關(guān)性檢驗(yàn)如圖4所示。
從檢驗(yàn)結(jié)果可以看出,此時(shí)數(shù)據(jù)存在自相關(guān)和偏自相關(guān)性(相關(guān)性檢測(cè)圖中,序列1階自相關(guān)系數(shù)、1階偏自相關(guān)系數(shù)均比較顯著,具有自相關(guān)性)。因此,該數(shù)據(jù)可進(jìn)行時(shí)間序列建模。
2.2.2 時(shí)間序列建模
選取2008年1月~2012年12月的數(shù)據(jù)作為時(shí)間序列建模的訓(xùn)練樣本,2013年1月和2月的數(shù)據(jù)作為測(cè)試樣本。時(shí)間序列如圖5所示。
以ARIMA時(shí)間序列模型為預(yù)測(cè)模型,獲得2013年1月和2月時(shí)間序列預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)比對(duì)誤差如表3。
2.2.3 波動(dòng)區(qū)間計(jì)算
上述時(shí)間序列模型的誤差的均值為0.139 2,誤差的標(biāo)準(zhǔn)差為:6.520 4。應(yīng)用時(shí)間序列模型,實(shí)時(shí)地預(yù)測(cè)2013年1月~2013年9月各月單位購(gòu)電成本。并根據(jù)設(shè)置指標(biāo)波動(dòng)區(qū)間的方法,設(shè)置各月指標(biāo)的閾值區(qū)間,如表3。
2.3 基于線性擬合方法的“累計(jì)總資產(chǎn)周轉(zhuǎn)率”閾值設(shè)置
2.3.1 指標(biāo)數(shù)據(jù)線性擬合分析
選取總資產(chǎn)周轉(zhuǎn)率累計(jì)值,2010年1月~2013年10月省數(shù)據(jù),共46條。該指標(biāo)數(shù)據(jù)在一年內(nèi)(12個(gè)月)呈線性增長(zhǎng)的趨勢(shì),并且每年的變化趨勢(shì)近似相同。2010年~2013年各月數(shù)據(jù)的分布情況如圖6所示。
對(duì)2010年、2011年、2012年的數(shù)據(jù)(每年12條數(shù)據(jù))分別按照月份進(jìn)行線性擬合,2010年、2011年、2012年的數(shù)據(jù)線性擬合的擬合優(yōu)度均大于0.95,說(shuō)明“總資產(chǎn)周轉(zhuǎn)率”指標(biāo)的累計(jì)值在一年內(nèi)呈線性增長(zhǎng)趨勢(shì),并且在每年的同月指標(biāo)值幾乎相同。
2.3.2 波動(dòng)區(qū)間計(jì)算
選取2012年各月數(shù)據(jù)得到線性擬合函數(shù),計(jì)算2012年各月的預(yù)測(cè)值,同時(shí)以該樣本數(shù)據(jù)的預(yù)測(cè)值與實(shí)際數(shù)據(jù)的偏差為分析對(duì)象,計(jì)算其誤差均值與標(biāo)準(zhǔn)差。
經(jīng)計(jì)算得到誤差的均值為0.000 258,誤差的標(biāo)準(zhǔn)差為:0.005 931。應(yīng)用以上線性擬合函數(shù),預(yù)測(cè)2013年1月~2013年10月遼寧各月累計(jì)總資產(chǎn)周轉(zhuǎn)率值,并根據(jù)設(shè)置指標(biāo)波動(dòng)區(qū)間的方法,設(shè)置各月指標(biāo)的閾值區(qū)間。
3 結(jié)論
本文根據(jù)國(guó)家電網(wǎng)的運(yùn)營(yíng)監(jiān)測(cè)中心對(duì)于指標(biāo)的監(jiān)測(cè)有較多指標(biāo)閾值設(shè)置是由業(yè)務(wù)專家人工設(shè)置實(shí)現(xiàn)的現(xiàn)狀,針對(duì)存在部分指標(biāo)設(shè)置沒有結(jié)合各地區(qū)業(yè)務(wù)能力的差異,或者沒有充分考慮業(yè)務(wù)自身規(guī)律等問題,通過研究指標(biāo)的數(shù)據(jù)形態(tài)和業(yè)務(wù)形態(tài),確定指標(biāo)數(shù)據(jù)在一定時(shí)間階段內(nèi)是否穩(wěn)定(業(yè)務(wù)是否穩(wěn)定),發(fā)現(xiàn)指標(biāo)在時(shí)間序列的變化特征,以及觀察指標(biāo)數(shù)據(jù)在每個(gè)時(shí)間周期內(nèi)是否呈線性趨勢(shì),結(jié)合統(tǒng)計(jì)學(xué)及數(shù)據(jù)挖掘方法,提出了適用于不同特性指標(biāo)的三種閾值設(shè)置方法——時(shí)間序列指標(biāo)閾值設(shè)置方法、正態(tài)分布指標(biāo)閾值設(shè)置方法以及線性擬合指標(biāo)閾值設(shè)置方法。在此基礎(chǔ)上,應(yīng)用本文提出的方法對(duì)相適用三類指標(biāo)進(jìn)行了實(shí)驗(yàn)和分析,并將通過線性擬合方法得到的“累計(jì)總資產(chǎn)周轉(zhuǎn)率”的閾值和目前國(guó)網(wǎng)已有的閾值進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文的方法設(shè)置的指標(biāo)閥值更加合理,更能反映客觀現(xiàn)實(shí)情況。
參考文獻(xiàn)
[1] 張?jiān)骑w.我國(guó)電力行業(yè)運(yùn)行情況剖析[J].上海電力,2008(6):519-524.
[2] 國(guó)家電網(wǎng)公司總部運(yùn)營(yíng)監(jiān)測(cè)(控)中心建成投運(yùn)[J].電力信息化,2013(6):111-112.
[3] 段江嬌.基于模型的時(shí)間序列數(shù)據(jù)挖掘[D].上海:復(fù)旦大學(xué),2008.
[4] 谷赫.時(shí)間序列的數(shù)據(jù)挖掘在證券預(yù)測(cè)分析中的應(yīng)用研究[D].長(zhǎng)春:吉林大學(xué),2005.
[5] 李慶雷,馬楠,付遵濤.時(shí)間序列非平穩(wěn)檢測(cè)方法的對(duì)比分析[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(2):252-260.
[6] 馬莉.電力市場(chǎng)環(huán)境下發(fā)電公司報(bào)價(jià)策略研究[D].杭州:浙江大學(xué),2003.
[7] 杜宇上.基于正態(tài)密度函數(shù)的滾動(dòng)窗口路徑規(guī)劃方法[J].科學(xué)技術(shù)與工程,2010(15):3741-3744.
[8] 何菊明,王芙.實(shí)驗(yàn)數(shù)據(jù)的線性擬合及計(jì)算機(jī)處理[J].武漢工程大學(xué)學(xué)報(bào),2008,30(1):117-119.