摘 要: 客戶流失是電信行業(yè)發(fā)展過程中所面臨的一個(gè)嚴(yán)重問題,直接影響到運(yùn)營商的企業(yè)效益。本文主要介紹了對電信行業(yè)客戶流失情況進(jìn)行數(shù)據(jù)挖掘的過程,改進(jìn)了已有模型存在的缺乏靈活性、難以處理高維度數(shù)據(jù)的缺點(diǎn),根據(jù)運(yùn)營商的歷史數(shù)據(jù)資料,利用SAS/EM模塊對客戶的固有特征和行為特征進(jìn)行挖掘分析,采用決策樹分類算法的CART算法建立了聚類分析模型和包括評估模塊在內(nèi)的一套完整的流失預(yù)測模型,能夠直觀地顯示出流失客戶的基本特征,并且可以對任意的數(shù)據(jù)集進(jìn)行分析,有效提高了模型的普遍應(yīng)用性和準(zhǔn)確性。
關(guān)鍵詞: 客戶流失;數(shù)據(jù)挖掘;決策樹;CART算法;聚類分析;SAS/EM模塊;客戶流失預(yù)測模型
0 引言
在電信這個(gè)服務(wù)型行業(yè)中,客戶關(guān)系管理工作直接關(guān)系著企業(yè)的經(jīng)濟(jì)效益、聲譽(yù)和信譽(yù),而在客戶關(guān)系管理工作中,開發(fā)一個(gè)新客戶的成本比挽留一個(gè)老客戶的成本要高出很多倍[1]。
傳統(tǒng)上國內(nèi)外移動(dòng)運(yùn)營商認(rèn)為新客戶在最初兩個(gè)月內(nèi)流失的概率最大,大約為10%左右,所以運(yùn)營商會建立一個(gè)呼叫中心,在客戶使用移動(dòng)電話一個(gè)月左右后,主動(dòng)和客戶聯(lián)系[2],但這樣的方法不切實(shí)際。因此,近年來好多電信運(yùn)營商都開始建立客戶流失預(yù)測模型。
目前主要的做法有采用SPSS公司的Clementine工具,使用節(jié)點(diǎn)連接的方式,分別用分類回歸樹(CART)算法和C5.0算法建立流失預(yù)測模型[3]。還有一種采用Weka工具的決策樹分類器,應(yīng)用一趟聚類算法進(jìn)行聚類分析,將分析后的簇群號作為新的特征增加到原數(shù)據(jù)集中,對新的數(shù)據(jù)建立決策樹分類模型[4]。該模型準(zhǔn)確率較高,但是模型考慮的變量因素比較少、數(shù)據(jù)量比較小,缺乏普遍性,對于客戶流失的原因分析具有一定的局限性。
本文采用SAS軟件,在對大規(guī)模、高維度的歷史數(shù)據(jù)引入屬性選擇、特征提取和特征選擇的基礎(chǔ)上,對數(shù)據(jù)進(jìn)行處理,然后利用新的數(shù)據(jù)源建立包括模型評估在內(nèi)的完整的流失預(yù)測模型。模型中添加了評估模塊,可以對流失預(yù)測的結(jié)果進(jìn)行檢測優(yōu)化,提高流失預(yù)測的準(zhǔn)確率;克服了單一評價(jià)標(biāo)準(zhǔn)的缺陷,結(jié)合了是否流失和流失概率兩個(gè)基本的評價(jià)標(biāo)準(zhǔn);而且對于最終的預(yù)測結(jié)果有詳細(xì)的報(bào)告存儲路徑,以便查看和應(yīng)用于日后的市場運(yùn)營策略的改進(jìn)工作中,從而有效地采取挽留措施,減少客戶的流失量,做好客戶關(guān)系管理工作,提高企業(yè)的經(jīng)營效益,獲得企業(yè)持續(xù)經(jīng)營的成功。
1 數(shù)據(jù)準(zhǔn)備
要建立靈活、普遍性高的客戶流失預(yù)測模型,必須采集大量的客戶信息資源數(shù)據(jù),同時(shí)需要對其進(jìn)行數(shù)據(jù)的預(yù)處理,得到構(gòu)建模型所需的數(shù)據(jù)形式。因此,在這個(gè)階段需要對模型所需的原始數(shù)據(jù)(訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù))進(jìn)行分析處理,以便能充分挖掘出客戶的關(guān)鍵性行為特征[5]。
1.1 樣本選擇和數(shù)據(jù)描述
以某地區(qū)聯(lián)通運(yùn)營商的客戶業(yè)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)(包括訓(xùn)練樣本集和測試樣本集),該樣本數(shù)據(jù)集中總共包含了695 689條(包含正常客戶和流失客戶)記錄,每條記錄由33項(xiàng)客戶基本信息和48項(xiàng)客戶行為特征(12種業(yè)務(wù),4個(gè)月,共48項(xiàng))以及1項(xiàng)客戶類別特征組成。
(1)客戶基本信息:主要是客戶資料數(shù)據(jù)??蛻艋拘畔?shù)據(jù)是客戶的靜態(tài)數(shù)據(jù)(如表1所示),相對來說比較穩(wěn)定,但是由于這些數(shù)據(jù)在客戶入網(wǎng)填寫時(shí)會包含大量的缺失值,甚至是假的錯(cuò)誤的信息,所以需要進(jìn)行大量的數(shù)據(jù)清洗和轉(zhuǎn)換工作。
?。?)客戶消費(fèi)行為特征:主要是客戶在過去4個(gè)月的消費(fèi)行為數(shù)據(jù)??蛻粝M(fèi)行為特征的每條記錄包含了客戶在過去4個(gè)月的消費(fèi)情況,包括12個(gè)基本消費(fèi)行為,所以該樣本總共包含了48(12×4=48)項(xiàng)數(shù)據(jù)記錄,如表2所示。
(3)客戶類別特征:主要用來標(biāo)注客戶的狀態(tài)。實(shí)驗(yàn)樣本數(shù)據(jù)集中包含了一個(gè)可以判定類別信息的類別特征(如表3所示),根據(jù)類別信息可以知道每個(gè)客戶的基本狀態(tài)。
1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的效果會直接影響到模型的性能和流失預(yù)測的結(jié)果,一方面,通過對數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,可以使得建立的模型更簡單、準(zhǔn)確,而且便于理解;另一方面,可以根據(jù)整理好的數(shù)據(jù)的特點(diǎn)以及不同算法的要求,選擇合適的執(zhí)行算法,從而降低算法的時(shí)間和空間復(fù)雜度。為了克服已有模型存在的缺乏靈活性缺陷,此處的數(shù)據(jù)預(yù)處理是根據(jù)數(shù)據(jù)的屬性特點(diǎn)分開進(jìn)行,主要包括數(shù)據(jù)清洗、特征構(gòu)造和特征選擇等過程[6]。
?。?)數(shù)據(jù)清洗
主要是補(bǔ)全缺失的數(shù)據(jù)、處理不一致的數(shù)值、除去錯(cuò)誤的數(shù)據(jù)。例如:如果某條記錄中存在大量的缺失值,而且這些數(shù)據(jù)很難用正常的方法來補(bǔ)全,則可以考慮刪除整條記錄數(shù)據(jù);又或者記錄數(shù)據(jù)的某項(xiàng)缺失,在不影響整體樣本數(shù)據(jù)集的情況下,可以考慮用均值來補(bǔ)全缺失值。
?。?)數(shù)據(jù)轉(zhuǎn)換
主要包括構(gòu)造新的衍生特征信息和對連續(xù)型數(shù)據(jù)進(jìn)行規(guī)范化。在采集的數(shù)據(jù)信息中,消費(fèi)行為特征只有過去4個(gè)月的消費(fèi)記錄,這幾個(gè)特征不能充分體現(xiàn)客戶在這4個(gè)月以及將來的消費(fèi)情況。所以,在對數(shù)據(jù)集進(jìn)行處理時(shí),對于12項(xiàng)月消費(fèi)行為的記錄采用了構(gòu)造衍生特征的措施,構(gòu)造了24項(xiàng)月均消費(fèi)信息和月均消費(fèi)趨勢的信息。例如:
月均消費(fèi)行為:為過去4個(gè)月的費(fèi)用的平均值,表示為mb_fee,即:
月消費(fèi)趨勢:為過去4個(gè)月的消費(fèi)記錄中后2個(gè)月的總消費(fèi)與前2個(gè)月的總消費(fèi)的比值,表示為trend_fee,即:
?。?)特征選擇
這個(gè)步驟將會直接影響到分類預(yù)測模型的性能。通過選擇相關(guān)性強(qiáng)的特征,從原始數(shù)據(jù)集中刪除不相關(guān)或者相關(guān)性很小的特征項(xiàng),保留與目標(biāo)特征相關(guān)性大的特征項(xiàng),可以減少樣本的維度,從而大大減少計(jì)算量,降低時(shí)間和空間的復(fù)雜度,簡化學(xué)習(xí)模型。
經(jīng)過對數(shù)據(jù)進(jìn)行預(yù)處理,最終整理了高維度、大規(guī)模的、用于實(shí)驗(yàn)數(shù)據(jù)集的樣本,總共包含了631 590條記錄,每條記錄包含33項(xiàng)客戶基本信息和114項(xiàng)客戶消費(fèi)行為特征(構(gòu)造的24項(xiàng)月均消費(fèi)行為特征、24項(xiàng)月均消費(fèi)趨勢特征和17項(xiàng)通話行為特征、21項(xiàng)不同時(shí)段通話頻率行為特征、20項(xiàng)服務(wù)消費(fèi)行為特征以及8項(xiàng)手機(jī)上網(wǎng)行為特征)以及1項(xiàng)類別特征,總共148項(xiàng)。
2 建立模型
因?yàn)楸景咐饕獞?yīng)用兩種模型來進(jìn)行數(shù)據(jù)挖掘,所以在建立模型時(shí)需要考慮可實(shí)施性來建立合理的模型。在這里采用SAS/EM模塊來搭建整個(gè)模型,將聚類分析模型和流失預(yù)測模型布置在同一個(gè)工作區(qū)中,兩個(gè)模型各自執(zhí)行不同的功能,最終完成對數(shù)據(jù)的挖掘工作。所建立的模型如圖1所示。
2.1 聚類分析模型
聚類分析模型通過對客戶的合理劃分來反映客戶的整體特征,根據(jù)劃分后的類別簇群來判斷不同客戶的固有信息及消費(fèi)特點(diǎn)。
從聚類分析模型的顯示結(jié)果(如圖2所示)可以看出,所有的客戶被分為10個(gè)簇群,從各個(gè)簇群的類別分布情況來看,有6個(gè)簇(簇1、簇2、簇4、簇5、簇8、簇9)的客戶基本是由正??蛻艚M成,其他4個(gè)簇的客戶基本是由流失客戶組成,而且通過與每個(gè)特征分布的均值對比,可以發(fā)現(xiàn)10號簇群的差異性最大[7-8]。
2.2 流失預(yù)測模型
對數(shù)據(jù)進(jìn)行聚類分析是流失預(yù)測的基礎(chǔ),目的是將客戶劃分為不同的類別,這樣可以在不同的客戶群體上進(jìn)行預(yù)測分析,從而根據(jù)各記錄的類別編號判定流失客戶的所屬類別。所以在進(jìn)行流失預(yù)測分析之前,將每條記錄所在的類別編號作為一項(xiàng)特征添加到實(shí)驗(yàn)數(shù)據(jù)表中,用于流失預(yù)測建立模型的數(shù)據(jù)集中總共包含了150項(xiàng)特征(148項(xiàng)基本特征+1項(xiàng)聚類編號+1項(xiàng)目標(biāo)特征)和631 590條數(shù)據(jù)記錄。選取其中2/3的數(shù)據(jù)作為訓(xùn)練集,剩余1/3的數(shù)據(jù)作為測試集,這樣分開預(yù)測主要是后面便于檢測預(yù)測模型的準(zhǔn)確度。
本案例使用SAS/EM的決策樹分類節(jié)點(diǎn)作為客戶流失預(yù)測的基本工具,選用決策樹分類算法中的分類與回歸樹(Classification and Regression Tree,CART)算法構(gòu)建聚類分析模型,該算法采用Gini系數(shù)來度量對某個(gè)屬性變量測試輸出的兩組取值的差異性,采用“最佳評估值”方法來進(jìn)行樹剪枝。
在SAS/EM模塊流失預(yù)測模型的分析結(jié)果中,圖3為混淆矩陣,直觀顯示訓(xùn)練集和測試集的預(yù)測數(shù)據(jù)結(jié)果,圖4為Gini系數(shù)均方誤差曲線圖,通過訓(xùn)練集和測試集Gini系數(shù)的均方誤差曲線對比來反映模型的誤分率情況。
如圖5所示為流失預(yù)測的樹狀圖,顯示決策樹深度為3,從頂部開始,直到獲得了最佳分類結(jié)果時(shí)才停止分支,當(dāng)其達(dá)到最佳結(jié)果并且獲得了按同一規(guī)則分類的客戶時(shí),便會在底部出現(xiàn)葉子節(jié)點(diǎn)。每個(gè)葉子節(jié)點(diǎn)的產(chǎn)生所依據(jù)的最重要的變量依次為[9]:客戶平均每個(gè)月的總消費(fèi)(MB_TOTAL_FEE)、月均本地通話次數(shù)(CS_LOCAL_COUNT)和月均新業(yè)務(wù)費(fèi)(MB_NEW_FEE)等。
下面根據(jù)圖5所顯示的規(guī)則,結(jié)合聚類分析模型的應(yīng)用來說明被分類為流失客戶的一個(gè)分支節(jié)點(diǎn),流失客戶基本上具備以下特點(diǎn):
?。?)平均每個(gè)月的總消費(fèi)小于0.015元,流失概率為94.5%;
(2)平均每個(gè)月本地通話次數(shù)小于0.125,流失概率為95.2%;
?。?)平均每個(gè)月的新業(yè)務(wù)費(fèi)小于6.25元,流失概率為96.0%。
3 模型的評估與應(yīng)用
從預(yù)測模型的目標(biāo)分類來看,目標(biāo)客戶主要分為2類(正??蛻艉土魇Э蛻簦?,應(yīng)用CART算法來進(jìn)行流失預(yù)測分析,那么Gini系數(shù)的最大值為0.5。理想的分類應(yīng)該盡量使樣本輸出變量取值的差異性總和達(dá)到最小,即“純度”最大,也就是使得輸出變量的取值差異性下降最快,“純度”增加最快。從圖4所示的Gini系數(shù)均方誤差曲線圖來看,曲線的下降速度很快,而且Gini系數(shù)的均方誤差取值很小,也就是說,建立的流失預(yù)測模型性能很好,接近理想的分類。
對已知客戶狀態(tài)的數(shù)據(jù)利用模型來進(jìn)行預(yù)測分析,將得到的預(yù)測結(jié)果和實(shí)際客戶的狀態(tài)進(jìn)行對比,可以計(jì)算出預(yù)測的準(zhǔn)確度。流失預(yù)測模型的評估結(jié)果如圖6所示,計(jì)算出準(zhǔn)確度為96.8%,從整個(gè)模型的預(yù)測結(jié)果和評估結(jié)果來看,建立的客戶流失預(yù)測模型比較接近理想模型,具有一定的實(shí)踐意義。
4 結(jié)束語
本文應(yīng)用數(shù)據(jù)挖掘技術(shù),采用聚類分析和決策樹分類算法對電信行業(yè)中的客戶流失情況進(jìn)行了分析。利用SAS/EM模塊,在建立了分類模型后,應(yīng)用CART算法建立了客戶流失預(yù)測模型,結(jié)合2種模型的預(yù)測結(jié)果,對流失客戶所具備的基本特征做了總結(jié),并且對建立的流失預(yù)測模型進(jìn)行了評估測試和優(yōu)化。建立的這套完整的模型改進(jìn)了現(xiàn)有流失預(yù)測模型缺乏靈活性、難以處理大規(guī)模高維度數(shù)據(jù)的缺陷,有效地提高了模型的準(zhǔn)確性(準(zhǔn)確性高達(dá)96.8%)和普遍應(yīng)用性。
參考文獻(xiàn)
[1] 劉飛.我國通信企業(yè)客戶流失預(yù)測研究綜述[J].企業(yè)科技與發(fā)展,2011(7):273-275.
[2] 夏國恩.客戶流失預(yù)測的現(xiàn)狀與發(fā)展研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(2):151-153.
[3] 師江波,胡建華.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測分析[J].山西電子技術(shù),2009(1):48-50.
[4] 蔣盛益,王連喜.面向電信的客戶流失預(yù)測模型研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,46(5):77-81.
[5] 李陽,劉勝輝,趙洪松.數(shù)據(jù)挖掘在電信行業(yè)客戶流失管理中的研究與應(yīng)用[J].電腦知識與技術(shù),2010,6(3):518-521.
[6] 吳志勇,戴曰章,鞠傳香.數(shù)據(jù)挖掘在電信客戶流失中的應(yīng)用[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)報(bào)),2007,21(5):28-31.
[7] 蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2011.
[8] 楊池然,仲文明,周志勇.SAS9.2從入門到精通[M].北京:電子工業(yè)出版社,2011.
[9] MACLENNAN J, Tang Zhaohui, CRIVAT B. Data mining with Microsoft SQL Server 2008(2nd edition)[M].北京:清華大學(xué)出版社,2010.