日本不卡网站,亚洲国产精品一区二区三区久久,欧美成人免费观看一级a片

數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用

2015年微型機(jī)與應(yīng)用第15期

張線媚

（西安思源學(xué)院工學(xué)院，陜西西安 710038）

摘要： 客戶流失是電信行業(yè)發(fā)展過程中所面臨的一個(gè)嚴(yán)重問題，直接影響到運(yùn)營(yíng)商的企業(yè)效益。本文主要介紹了對(duì)電信行業(yè)客戶流失情況進(jìn)行數(shù)據(jù)挖掘的過程，改進(jìn)了已有模型存在的缺乏靈活性、難以處理高維度數(shù)據(jù)的缺點(diǎn)，根據(jù)運(yùn)營(yíng)商的歷史數(shù)據(jù)資料，利用SAS/EM模塊對(duì)客戶的固有特征和行為特征進(jìn)行挖掘分析，采用決策樹分類算法的CART算法建立了聚類分析模型和包括評(píng)估模塊在內(nèi)的一套完整的流失預(yù)測(cè)模型，能夠直觀地顯示出流失客戶的基本特征，并且可以對(duì)任意的數(shù)據(jù)集進(jìn)行分析，有效提高了模型的普遍應(yīng)用性和準(zhǔn)確性。

關(guān)鍵詞： 客戶流失數(shù)據(jù)挖掘決策樹 CART算法

Abstract：

Key words :

　　摘要：客戶流失是電信行業(yè)發(fā)展過程中所面臨的一個(gè)嚴(yán)重問題，直接影響到運(yùn)營(yíng)商的企業(yè)效益。本文主要介紹了對(duì)電信行業(yè)客戶流失情況進(jìn)行數(shù)據(jù)挖掘的過程，改進(jìn)了已有模型存在的缺乏靈活性、難以處理高維度數(shù)據(jù)的缺點(diǎn)，根據(jù)運(yùn)營(yíng)商的歷史數(shù)據(jù)資料，利用SAS/EM模塊對(duì)客戶的固有特征和行為特征進(jìn)行挖掘分析，采用決策樹分類算法的CART算法建立了聚類分析模型和包括評(píng)估模塊在內(nèi)的一套完整的流失預(yù)測(cè)模型，能夠直觀地顯示出流失客戶的基本特征，并且可以對(duì)任意的數(shù)據(jù)集進(jìn)行分析，有效提高了模型的普遍應(yīng)用性和準(zhǔn)確性。

　　關(guān)鍵詞：客戶流失；數(shù)據(jù)挖掘；決策樹；CART算法；聚類分析；SAS/EM模塊；客戶流失預(yù)測(cè)模型

0 引言

　　在電信這個(gè)服務(wù)型行業(yè)中，客戶關(guān)系管理工作直接關(guān)系著企業(yè)的經(jīng)濟(jì)效益、聲譽(yù)和信譽(yù)，而在客戶關(guān)系管理工作中，開發(fā)一個(gè)新客戶的成本比挽留一個(gè)老客戶的成本要高出很多倍[1]。

　　傳統(tǒng)上國(guó)內(nèi)外移動(dòng)運(yùn)營(yíng)商認(rèn)為新客戶在最初兩個(gè)月內(nèi)流失的概率最大，大約為10%左右，所以運(yùn)營(yíng)商會(huì)建立一個(gè)呼叫中心，在客戶使用移動(dòng)電話一個(gè)月左右后，主動(dòng)和客戶聯(lián)系[2]，但這樣的方法不切實(shí)際。因此，近年來好多電信運(yùn)營(yíng)商都開始建立客戶流失預(yù)測(cè)模型。

　　目前主要的做法有采用SPSS公司的Clementine工具，使用節(jié)點(diǎn)連接的方式，分別用分類回歸樹（CART）算法和C5.0算法建立流失預(yù)測(cè)模型[3]。還有一種采用Weka工具的決策樹分類器，應(yīng)用一趟聚類算法進(jìn)行聚類分析，將分析后的簇群號(hào)作為新的特征增加到原數(shù)據(jù)集中，對(duì)新的數(shù)據(jù)建立決策樹分類模型[4]。該模型準(zhǔn)確率較高，但是模型考慮的變量因素比較少、數(shù)據(jù)量比較小，缺乏普遍性，對(duì)于客戶流失的原因分析具有一定的局限性。

　　本文采用SAS軟件，在對(duì)大規(guī)模、高維度的歷史數(shù)據(jù)引入屬性選擇、特征提取和特征選擇的基礎(chǔ)上，對(duì)數(shù)據(jù)進(jìn)行處理，然后利用新的數(shù)據(jù)源建立包括模型評(píng)估在內(nèi)的完整的流失預(yù)測(cè)模型。模型中添加了評(píng)估模塊，可以對(duì)流失預(yù)測(cè)的結(jié)果進(jìn)行檢測(cè)優(yōu)化，提高流失預(yù)測(cè)的準(zhǔn)確率；克服了單一評(píng)價(jià)標(biāo)準(zhǔn)的缺陷，結(jié)合了是否流失和流失概率兩個(gè)基本的評(píng)價(jià)標(biāo)準(zhǔn)；而且對(duì)于最終的預(yù)測(cè)結(jié)果有詳細(xì)的報(bào)告存儲(chǔ)路徑，以便查看和應(yīng)用于日后的市場(chǎng)運(yùn)營(yíng)策略的改進(jìn)工作中，從而有效地采取挽留措施，減少客戶的流失量，做好客戶關(guān)系管理工作，提高企業(yè)的經(jīng)營(yíng)效益，獲得企業(yè)持續(xù)經(jīng)營(yíng)的成功。

1 數(shù)據(jù)準(zhǔn)備

　　要建立靈活、普遍性高的客戶流失預(yù)測(cè)模型，必須采集大量的客戶信息資源數(shù)據(jù)，同時(shí)需要對(duì)其進(jìn)行數(shù)據(jù)的預(yù)處理，得到構(gòu)建模型所需的數(shù)據(jù)形式。因此，在這個(gè)階段需要對(duì)模型所需的原始數(shù)據(jù)（訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)）進(jìn)行分析處理，以便能充分挖掘出客戶的關(guān)鍵性行為特征[5]。

　　1.1 樣本選擇和數(shù)據(jù)描述

　　以某地區(qū)聯(lián)通運(yùn)營(yíng)商的客戶業(yè)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)（包括訓(xùn)練樣本集和測(cè)試樣本集），該樣本數(shù)據(jù)集中總共包含了695 689條（包含正?？蛻艉土魇Э蛻簦┯涗?，每條記錄由33項(xiàng)客戶基本信息和48項(xiàng)客戶行為特征（12種業(yè)務(wù)，4個(gè)月，共48項(xiàng)）以及1項(xiàng)客戶類別特征組成。

　?。?）客戶基本信息：主要是客戶資料數(shù)據(jù)。客戶基本信息數(shù)據(jù)是客戶的靜態(tài)數(shù)據(jù)（如表1所示），相對(duì)來說比較穩(wěn)定，但是由于這些數(shù)據(jù)在客戶入網(wǎng)填寫時(shí)會(huì)包含大量的缺失值，甚至是假的錯(cuò)誤的信息，所以需要進(jìn)行大量的數(shù)據(jù)清洗和轉(zhuǎn)換工作。

　?。?）客戶消費(fèi)行為特征：主要是客戶在過去4個(gè)月的消費(fèi)行為數(shù)據(jù)?？蛻粝M(fèi)行為特征的每條記錄包含了客戶在過去4個(gè)月的消費(fèi)情況，包括12個(gè)基本消費(fèi)行為，所以該樣本總共包含了48（12×4=48）項(xiàng)數(shù)據(jù)記錄，如表2所示。

　?。?）客戶類別特征：主要用來標(biāo)注客戶的狀態(tài)。實(shí)驗(yàn)樣本數(shù)據(jù)集中包含了一個(gè)可以判定類別信息的類別特征（如表3所示），根據(jù)類別信息可以知道每個(gè)客戶的基本狀態(tài)。

　　1.2 數(shù)據(jù)預(yù)處理

　　數(shù)據(jù)預(yù)處理的效果會(huì)直接影響到模型的性能和流失預(yù)測(cè)的結(jié)果，一方面，通過對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善，可以使得建立的模型更簡(jiǎn)單、準(zhǔn)確，而且便于理解；另一方面，可以根據(jù)整理好的數(shù)據(jù)的特點(diǎn)以及不同算法的要求，選擇合適的執(zhí)行算法，從而降低算法的時(shí)間和空間復(fù)雜度。為了克服已有模型存在的缺乏靈活性缺陷，此處的數(shù)據(jù)預(yù)處理是根據(jù)數(shù)據(jù)的屬性特點(diǎn)分開進(jìn)行，主要包括數(shù)據(jù)清洗、特征構(gòu)造和特征選擇等過程[6]。

　　（1）數(shù)據(jù)清洗

　　主要是補(bǔ)全缺失的數(shù)據(jù)、處理不一致的數(shù)值、除去錯(cuò)誤的數(shù)據(jù)。例如：如果某條記錄中存在大量的缺失值，而且這些數(shù)據(jù)很難用正常的方法來補(bǔ)全，則可以考慮刪除整條記錄數(shù)據(jù)；又或者記錄數(shù)據(jù)的某項(xiàng)缺失，在不影響整體樣本數(shù)據(jù)集的情況下，可以考慮用均值來補(bǔ)全缺失值。

　?。?）數(shù)據(jù)轉(zhuǎn)換

　　主要包括構(gòu)造新的衍生特征信息和對(duì)連續(xù)型數(shù)據(jù)進(jìn)行規(guī)范化。在采集的數(shù)據(jù)信息中，消費(fèi)行為特征只有過去4個(gè)月的消費(fèi)記錄，這幾個(gè)特征不能充分體現(xiàn)客戶在這4個(gè)月以及將來的消費(fèi)情況。所以，在對(duì)數(shù)據(jù)集進(jìn)行處理時(shí)，對(duì)于12項(xiàng)月消費(fèi)行為的記錄采用了構(gòu)造衍生特征的措施，構(gòu)造了24項(xiàng)月均消費(fèi)信息和月均消費(fèi)趨勢(shì)的信息。例如：

　　月均消費(fèi)行為：為過去4個(gè)月的費(fèi)用的平均值，表示為mb_fee，即：

　　 FJC]$}8)FVZE($24EL2QYIM.png

　　月消費(fèi)趨勢(shì)：為過去4個(gè)月的消費(fèi)記錄中后2個(gè)月的總消費(fèi)與前2個(gè)月的總消費(fèi)的比值，表示為trend_fee，即：

　　 ~3%3JGMRS2FYT34_[6WPN%F.png

　　（3）特征選擇

　　這個(gè)步驟將會(huì)直接影響到分類預(yù)測(cè)模型的性能。通過選擇相關(guān)性強(qiáng)的特征，從原始數(shù)據(jù)集中刪除不相關(guān)或者相關(guān)性很小的特征項(xiàng)，保留與目標(biāo)特征相關(guān)性大的特征項(xiàng)，可以減少樣本的維度，從而大大減少計(jì)算量，降低時(shí)間和空間的復(fù)雜度，簡(jiǎn)化學(xué)習(xí)模型。

　　經(jīng)過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，最終整理了高維度、大規(guī)模的、用于實(shí)驗(yàn)數(shù)據(jù)集的樣本，總共包含了631 590條記錄，每條記錄包含33項(xiàng)客戶基本信息和114項(xiàng)客戶消費(fèi)行為特征（構(gòu)造的24項(xiàng)月均消費(fèi)行為特征、24項(xiàng)月均消費(fèi)趨勢(shì)特征和17項(xiàng)通話行為特征、21項(xiàng)不同時(shí)段通話頻率行為特征、20項(xiàng)服務(wù)消費(fèi)行為特征以及8項(xiàng)手機(jī)上網(wǎng)行為特征）以及1項(xiàng)類別特征，總共148項(xiàng)。

2 建立模型

　　因?yàn)楸景咐饕獞?yīng)用兩種模型來進(jìn)行數(shù)據(jù)挖掘，所以在建立模型時(shí)需要考慮可實(shí)施性來建立合理的模型。在這里采用SAS/EM模塊來搭建整個(gè)模型，將聚類分析模型和流失預(yù)測(cè)模型布置在同一個(gè)工作區(qū)中，兩個(gè)模型各自執(zhí)行不同的功能，最終完成對(duì)數(shù)據(jù)的挖掘工作。所建立的模型如圖1所示。

　　2.1 聚類分析模型

　　聚類分析模型通過對(duì)客戶的合理劃分來反映客戶的整體特征，根據(jù)劃分后的類別簇群來判斷不同客戶的固有信息及消費(fèi)特點(diǎn)。

　　從聚類分析模型的顯示結(jié)果（如圖2所示）可以看出，所有的客戶被分為10個(gè)簇群，從各個(gè)簇群的類別分布情況來看，有6個(gè)簇（簇1、簇2、簇4、簇5、簇8、簇9）的客戶基本是由正?？蛻艚M成，其他4個(gè)簇的客戶基本是由流失客戶組成，而且通過與每個(gè)特征分布的均值對(duì)比，可以發(fā)現(xiàn)10號(hào)簇群的差異性最大[7-8]。

　　2.2 流失預(yù)測(cè)模型

　　對(duì)數(shù)據(jù)進(jìn)行聚類分析是流失預(yù)測(cè)的基礎(chǔ)，目的是將客戶劃分為不同的類別，這樣可以在不同的客戶群體上進(jìn)行預(yù)測(cè)分析，從而根據(jù)各記錄的類別編號(hào)判定流失客戶的所屬類別。所以在進(jìn)行流失預(yù)測(cè)分析之前，將每條記錄所在的類別編號(hào)作為一項(xiàng)特征添加到實(shí)驗(yàn)數(shù)據(jù)表中，用于流失預(yù)測(cè)建立模型的數(shù)據(jù)集中總共包含了150項(xiàng)特征（148項(xiàng)基本特征+1項(xiàng)聚類編號(hào)+1項(xiàng)目標(biāo)特征）和631 590條數(shù)據(jù)記錄。選取其中2/3的數(shù)據(jù)作為訓(xùn)練集，剩余1/3的數(shù)據(jù)作為測(cè)試集，這樣分開預(yù)測(cè)主要是后面便于檢測(cè)預(yù)測(cè)模型的準(zhǔn)確度。

　　本案例使用SAS/EM的決策樹分類節(jié)點(diǎn)作為客戶流失預(yù)測(cè)的基本工具，選用決策樹分類算法中的分類與回歸樹（Classification and Regression Tree，CART）算法構(gòu)建聚類分析模型，該算法采用Gini系數(shù)來度量對(duì)某個(gè)屬性變量測(cè)試輸出的兩組取值的差異性，采用“最佳評(píng)估值”方法來進(jìn)行樹剪枝。

　　在SAS/EM模塊流失預(yù)測(cè)模型的分析結(jié)果中，圖3為混淆矩陣，直觀顯示訓(xùn)練集和測(cè)試集的預(yù)測(cè)數(shù)據(jù)結(jié)果，圖4為Gini系數(shù)均方誤差曲線圖，通過訓(xùn)練集和測(cè)試集Gini系數(shù)的均方誤差曲線對(duì)比來反映模型的誤分率情況。

　　如圖5所示為流失預(yù)測(cè)的樹狀圖，顯示決策樹深度為3，從頂部開始，直到獲得了最佳分類結(jié)果時(shí)才停止分支，當(dāng)其達(dá)到最佳結(jié)果并且獲得了按同一規(guī)則分類的客戶時(shí)，便會(huì)在底部出現(xiàn)葉子節(jié)點(diǎn)。每個(gè)葉子節(jié)點(diǎn)的產(chǎn)生所依據(jù)的最重要的變量依次為[9]：客戶平均每個(gè)月的總消費(fèi)（MB_TOTAL_FEE）、月均本地通話次數(shù)（CS_LOCAL_COUNT）和月均新業(yè)務(wù)費(fèi)（MB_NEW_FEE）等。

　　下面根據(jù)圖5所顯示的規(guī)則，結(jié)合聚類分析模型的應(yīng)用來說明被分類為流失客戶的一個(gè)分支節(jié)點(diǎn)，流失客戶基本上具備以下特點(diǎn)：

　?。?）平均每個(gè)月的總消費(fèi)小于0.015元，流失概率為94.5%；

　?。?）平均每個(gè)月本地通話次數(shù)小于0.125，流失概率為95.2%；

　?。?）平均每個(gè)月的新業(yè)務(wù)費(fèi)小于6.25元，流失概率為96.0%。

3 模型的評(píng)估與應(yīng)用

　　從預(yù)測(cè)模型的目標(biāo)分類來看，目標(biāo)客戶主要分為2類（正?？蛻艉土魇Э蛻簦?，應(yīng)用CART算法來進(jìn)行流失預(yù)測(cè)分析，那么Gini系數(shù)的最大值為0.5。理想的分類應(yīng)該盡量使樣本輸出變量取值的差異性總和達(dá)到最小，即“純度”最大，也就是使得輸出變量的取值差異性下降最快，“純度”增加最快。從圖4所示的Gini系數(shù)均方誤差曲線圖來看，曲線的下降速度很快，而且Gini系數(shù)的均方誤差取值很小，也就是說，建立的流失預(yù)測(cè)模型性能很好，接近理想的分類。

　　對(duì)已知客戶狀態(tài)的數(shù)據(jù)利用模型來進(jìn)行預(yù)測(cè)分析，將得到的預(yù)測(cè)結(jié)果和實(shí)際客戶的狀態(tài)進(jìn)行對(duì)比，可以計(jì)算出預(yù)測(cè)的準(zhǔn)確度。流失預(yù)測(cè)模型的評(píng)估結(jié)果如圖6所示，計(jì)算出準(zhǔn)確度為96.8%，從整個(gè)模型的預(yù)測(cè)結(jié)果和評(píng)估結(jié)果來看，建立的客戶流失預(yù)測(cè)模型比較接近理想模型，具有一定的實(shí)踐意義。

4 結(jié)束語

　　本文應(yīng)用數(shù)據(jù)挖掘技術(shù)，采用聚類分析和決策樹分類算法對(duì)電信行業(yè)中的客戶流失情況進(jìn)行了分析。利用SAS/EM模塊，在建立了分類模型后，應(yīng)用CART算法建立了客戶流失預(yù)測(cè)模型，結(jié)合2種模型的預(yù)測(cè)結(jié)果，對(duì)流失客戶所具備的基本特征做了總結(jié)，并且對(duì)建立的流失預(yù)測(cè)模型進(jìn)行了評(píng)估測(cè)試和優(yōu)化。建立的這套完整的模型改進(jìn)了現(xiàn)有流失預(yù)測(cè)模型缺乏靈活性、難以處理大規(guī)模高維度數(shù)據(jù)的缺陷，有效地提高了模型的準(zhǔn)確性（準(zhǔn)確性高達(dá)96.8%）和普遍應(yīng)用性。

　　參考文獻(xiàn)

　　[1] 劉飛.我國(guó)通信企業(yè)客戶流失預(yù)測(cè)研究綜述[J].企業(yè)科技與發(fā)展，2011（7）：273-275.

　　[2] 夏國(guó)恩.客戶流失預(yù)測(cè)的現(xiàn)狀與發(fā)展研究[J].計(jì)算機(jī)應(yīng)用研究，2010，27（2）：151-153.

　　[3] 師江波，胡建華.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測(cè)分析[J].山西電子技術(shù)，2009（1）：48-50.

　　[4] 蔣盛益，王連喜.面向電信的客戶流失預(yù)測(cè)模型研究[J].山東大學(xué)學(xué)報(bào)（理學(xué)版），2011，46（5）：77-81.

　　[5] 李陽，劉勝輝，趙洪松.數(shù)據(jù)挖掘在電信行業(yè)客戶流失管理中的研究與應(yīng)用[J].電腦知識(shí)與技術(shù)，2010，6（3）：518-521.

　　[6] 吳志勇，戴曰章，鞠傳香.數(shù)據(jù)挖掘在電信客戶流失中的應(yīng)用[J].山東理工大學(xué)學(xué)報(bào)（自然科學(xué)報(bào)），2007，21（5）：28-31.

　　[7] 蔣盛益，李霞，鄭琪.數(shù)據(jù)挖掘原理與實(shí)現(xiàn)[M].北京：電子工業(yè)出版社，2011.

　　[8] 楊池然，仲文明，周志勇.SAS9.2從入門到精通[M].北京：電子工業(yè)出版社，2011.

　　[9] MACLENNAN J， Tang Zhaohui， CRIVAT B. Data mining with Microsoft SQL Server 2008（2nd edition）[M].北京：清華大學(xué)出版社，2010.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容