文獻標識碼:A
DOI: 10.19358/j.issn.2096-5133.2018.08.012
中文引用格式:謝天保,崔田.基于網絡搜索數據的品牌汽車銷量預測研究[J].信息技術與網絡安全,2018,37(8):50-53.
0 引言
近年來,我國汽車產銷呈現(xiàn)較快增長,產銷總量屢創(chuàng)歷史新高,據中國汽車工業(yè)協(xié)會統(tǒng)計數據,2016年中國汽車產銷均超2 800萬輛,連續(xù)八年蟬聯(lián)全球第一[1]。據車主之家網站提供的數據顯示,2009~2016年我國銷量排名前十的品牌汽車占比高達55.84%,對于我國汽車消費者而言,品牌效應十分顯著。但是汽車生產廠商追求規(guī)模效應時存在一定的盲目性,導致產能過剩的問題日益凸顯。在嚴峻的形勢下,汽車生產企業(yè)應認真分析市場未來的需求量和可能存在的變化趨勢,合理規(guī)劃生產計劃,采用以銷定產的生產策略。因此如何準確地預測銷量,對于汽車生產企業(yè)研究市場行情及時調整生產經營策略有著極其重要的意義。隨著人工智能的出現(xiàn)以及基于網絡數據的預測研究的廣泛開展,將網絡搜索數據應用于汽車銷量的預測已成為研究的熱點。
傳統(tǒng)的汽車銷量預測研究采用的主要方法有灰色系統(tǒng)理論[2]、時間序列模型[3]以及人工神經網絡[4]等,但這些研究采用的數據時間粒度比較大,研究對象大都集中于我國汽車年度總銷量的預測,研究成果難以應用推廣。文獻[5]在建立網絡關鍵詞搜索數據與汽車銷量理論框架的基礎上,使用自動推薦技術選取關鍵詞并進行關鍵詞合成,然后針對不同價格區(qū)間的汽車銷量與相應合成指數進行建模預測且平均絕對誤差百分數均不超過4%,但是同一價格區(qū)間內包含眾多不同品牌車型,預測結果無法提供有價值的決策支持;文獻[6]、文獻[7]針對大眾途觀和寶馬汽車銷量進行預測研究,通過人工方式進行網絡數據關鍵詞的選取,發(fā)現(xiàn)加入百度關鍵詞作為解釋變量的模型相比傳統(tǒng)的ARMA模型,預測精度有了一定程度的提高;文獻[8]利用經濟變量和谷歌在線搜索數據建立預測月度汽車銷售數據的多變量模型,結果表明包括谷歌搜索數據在內的模型在統(tǒng)計上超過了大多數預測領域的傳統(tǒng)模型;文獻[9]提出了一種搜索數據關鍵特征選取方法,但是該選取方法最終僅僅保留了相關性最高的一個關鍵特征,難免會造成有效信息的損失。
綜上所述,目前的研究存在的問題包括研究對象與時間粒度選擇不當,網絡數據特征分析及選取的科學體系暫未形成,傳統(tǒng)模型預測性能具有局限性。本文擬基于網絡搜索數據,將品牌汽車銷量作為研究對象,時間粒度選取為月度,將傳統(tǒng)相關性分析與基于LASSO的特征選擇方法相結合,篩選出最優(yōu)的關鍵特征數據,然后應用多種機器學習算法建立品牌汽車銷量的預測模型,從而實現(xiàn)針對性更強、更準確、更具有應用價值的品牌汽車銷量的預測。
1 網絡搜索數據關鍵特征選取
本文選取“大眾”、“本田”、“奧迪”三個比較有代表性的品牌汽車作為研究對象,收集了2011年1月~2017年12月期間各品牌汽車月度銷量數據。根據消費者購買決策過程,消費者在產生購車需求后,大多數購車消費者都會通過搜索引擎從網絡中快速獲取到所需要的信息,而關鍵詞搜索是在線信息搜索時最常用的策略,所以將用戶搜索關鍵詞作為網絡搜索數據的關鍵特征。本文選擇國內應用最為廣泛的百度搜索引擎的百度指數作為網絡搜索關鍵詞數據來源。下面以“大眾”品牌汽車為例進行詳細說明。
1.1 關鍵詞的選取及拓展
本文采用文本挖掘的方法,結合汽車品牌、熱銷車型信息、車型配置指標數據等各個方面的信息,對網絡上與大眾品牌汽車相關的新聞、論壇文章、點評、分享交流等信息進行查找收集,剔除掉一些無用信息后,再使用NLPIR漢語分詞系統(tǒng)對原始文本進行關鍵詞提取,得到關鍵詞列表及其權重,選定其中權值較高的“大眾”、“大眾4S店”、“大眾SUV”、“大眾POLO”、“大眾商務車”等為初始關鍵詞。然后圍繞選取的初始關鍵詞綜合使用了長尾關鍵詞拓展法、站長工具以及網頁相關搜索推薦等方法拓展出數量更多的關鍵詞,剔除重復或者有歧義的關鍵詞后建立了一個包含276個關鍵詞的初始詞庫。
1.2 關鍵詞搜索指數相關性分析
首先利用網絡爬蟲工具獲取初始詞庫中各關鍵詞相同時間段內月度搜索數據,針對關鍵詞搜索數據進行預處理(剔除缺失數據超過6個月或者搜索指數過低的關鍵詞數據),最后得到118個符合要求的關鍵詞搜索數據。但是并不是每個關鍵詞搜索數據都與實際銷量存在相關關系。所以本文首先應用傳統(tǒng)相關性分析方法通過判定各個關鍵詞搜索數據與大眾品牌汽車銷量的Spearman秩相關系數,篩選出相關系數大于0.5的搜索關鍵詞(顯著相關),共計37個。然后采用時差相關分析確定上一步篩選出的關鍵詞搜索指數與大眾品牌汽車銷量的時滯階數均處于滯后1~3階的范圍(網絡搜索行為是一種即時性行為,而購買汽車作為重大經濟決策,消費者一般都會在做出購買決策前幾個月就開始搜索相關的信息)。
現(xiàn)有研究針對相關性分析結果一般有兩種處理方法:第一種是直接選取相關性最高的作為唯一的解釋變量;第二種是利用指數合成方法將合成后的關鍵指數作為解釋變量。兩種方法難免都會造成有效信息的損失。但是若保留所有的解釋變量,解釋變量之間也可能存在多重共線性,所以本文在相關性分析基礎上應用LASSO算法來進一步分析與選取特征[10]。
1.3 基于LASSO的特征選取
在高維數據變量選擇方法的研究領域中,Tibshirani在1996年提出普通線性模型下的Least Absolute Shrinkage and Selection Operate(LASSO)算法,LASSO算法就是在損失函數后面加上懲罰項(即L1正則項),L1正則項可以約束方程的稀疏性,這種稀疏性即可應用于特征的選擇,這種方法與傳統(tǒng)的算法相比優(yōu)點在于可以在進行連續(xù)的變量選擇的同時進行模型參數估計[11]。而且LASSO算法可以有效解決解釋變量多重共線性的問題,使得后續(xù)建立的模型擁有穩(wěn)定的性能。
針對上一節(jié)相關性分析結果,采用R語言中的glmnet包實現(xiàn)的LASSO算法對關鍵詞搜索數據進行分析與特征選取。通過分析模型的Lambda解路徑圖可以發(fā)現(xiàn),隨著懲罰的力度加大,越來越多的變量系數會被壓縮為0,而那些在Lambda比較大時仍然擁有非零系數的變量就是越重要的解釋變量[12-13]。本文選取平均絕對誤差(MAE)作為評價指標,通過交叉驗證得到最優(yōu)Lambda值,模型MAE與Lambda之間的關系如圖1所示。
圖1中左側虛線是最佳Lambda取值(lambda.min=0.143 065),也就是模型MAE最低時的Lambda取值,此時非零系數的變量個數僅為12個,相比之前37個關鍵詞特征數據已經大幅度地縮減。通過查看coefficients參數可以得到模型的Intercept為5.630 547 963 2,所選取的關鍵詞變量及其所對應的參數估計如表1所示。
至此,本文首先進行關鍵詞的選取及拓展,然后將傳統(tǒng)相關性分析與基于LASSO的特征選擇相結合應用于搜索數據關鍵詞選取,最終選出針對“大眾”品牌汽車的12個網絡搜索數據關鍵特征。使用同樣的方法,篩選得出“本田”及“奧迪”品牌汽車對應的網絡搜索數據關鍵特征分別為12個和13個。
2 實驗分析與討論
通過LASSO算法的應用有效地解決了解釋變量多重共線性的問題,同時在特征選擇的過程中也得到了LASSO線性回歸模型參數估計,但是該模型及現(xiàn)有研究大都使用基于最小二乘法的線性回歸模型,都無法解決異方差性及解釋變量與被解釋變量非線性關系的問題,這就會增加系數估計值的方差,結果造成系數估計值不穩(wěn)定,對異常值非常敏感,繼而會嚴重影響回歸線,最終影響預測值的準確度[14]。所以本文又選取了兩種非線性的機器學習算法建立模型并進行詳細的對比分析。
本文選取2011年1月~2016年12月的數據作為訓練集,將2017年12個月的數據作為測試集,采用R語言針對“大眾”、“本田”、“奧迪”品牌汽車的銷量預測建立了支持向量回歸模型及隨機森林模型,按照MAE值最小原則應用網格搜索法(GridSearch)進行模型參數調優(yōu),同時針對三個品牌建立傳統(tǒng)的時間序列預測模型——自回歸積分滑動平均模型(ARIMA)進行綜合比較分析。為了有效和直觀地衡量不同模型的預測能力,本文選取均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)兩個指標來評估預測結果,各模型測試集預測結果如表2所示。
從表2可以看出,無論從RMSE還是MAPE來說,機器學習模型的預測效果均有顯著優(yōu)勢,相比傳統(tǒng)的時間序列ARIMA模型大幅度提高了預測準確度,而且從MAPE指標結果來看,ARIMA模型對于不同品牌汽車銷量預測差異非常大(奧迪比本田高了近15%),機器學習模型預測性能比較穩(wěn)定。所有模型中性能最優(yōu)的是隨機森林模型,預測平均誤差為6.4%,比ARIMA模型降低了12.2個百分點,相比文獻[15]、[16]對大眾及奧迪相同品牌汽車月度銷量預測的MAPE分別降低了2.81%和4.63%,預測精度有了顯著提升。從本質上分析,網絡搜索數據與對應品牌汽車銷量之間的關系并不是單純的線性關系,其中非線性關系的程度應該大于線性關系的程度,因而兩種非線性機器學習模型的預測更為精確。
以“大眾”為例展示各模型測試集的預測值與實際值對比如圖2所示。其中可以看出LASOO線性回歸模型(圖(b))及支持向量回歸模型(圖(c))的預測精度明顯優(yōu)于ARIMA模型(圖(a)),ARIMA模型雖然能夠預測銷量的基本趨勢,但整體預測效果比較差,而且以上三種模型的峰值敏感度都較低,即對峰值的預測誤差均比較大。通過與隨機森林模型(圖(d))進行對比,可以清晰直觀地看出,隨機森林模型與其他模型相比在峰值預測準確度上有明顯差異,顯然隨機森林模型對于峰值和整體預測的結果都更精確。由此可以得出結論,針對汽車品牌粒度的月度銷量預測問題,建立基于網絡搜索數據關鍵特征的隨機森林模型是一種切實可行的方案。
3 結論
本文以品牌汽車銷量為研究對象,通過關鍵詞的選取及拓展,將相關性分析與基于LASSO的特征選擇相結合,最終篩選出針對不同品牌汽車的網絡搜索數據關鍵特征,在解決多重共線性及減少過擬合的基礎上保留最有效的數據,然后分別建立了傳統(tǒng)時間序列模型及三種機器學習模型,通過對實驗結果進行分析,發(fā)現(xiàn)機器學習模型的預測效果均有顯著優(yōu)勢,其中隨機森林模型預測性能最優(yōu)。本文提出的基于網絡搜索數據的預測方法可以利用前期網絡搜索數據預測后續(xù)汽車銷量,而相應品牌的汽車生產廠商可以根據預測結果及時調整企業(yè)的生產和營銷策略。模型的可靠性檢驗及推廣應用是接下來的研究方向。
參考文獻
[1] 中國汽車工業(yè)協(xié)會.中國汽車工業(yè)發(fā)展年度報告(2016)[M].北京:社會科學文獻出版社,2016.
[2] 黃琦.基于灰色理論的汽車銷售量預測研究[J].機械制造,2013,51(4):78-80.
[3] 胡彥君.ARIMA模型在汽車銷量預測中的應用及SAS實現(xiàn)[J].河北企業(yè),2012(4):11-12.
[4] 王旭天. 基于BP神經網絡的我國汽車銷量預測分析[D].上海:東華大學,2016.
[5] 袁慶玉,彭賡,劉穎,等.基于網絡關鍵詞搜索數據的汽車銷量預測研究[J].管理學家(學術版),2011(1):12-24.
[6] 孔令頂.基于互聯(lián)網搜索量的大眾途觀汽車銷量預測研究[J].時代金融,2015(30):222,226.
[7] 王守中,崔東佳,彭賡.基于Web搜索數據的寶馬汽車銷量預測研究[J].經濟師,2013(12):22-24,26.
[8] FANTAZZINI D, TOKTAMYSOVA Z. Forecasting german car sales using Google data and multivariate models[J].International Journal of Production Economics,2015,170: 97-135.
[9] 李憶,文瑞,楊立成.網絡搜索指數與汽車銷量關系研究——基于文本挖掘的關鍵詞獲取[J].現(xiàn)代情報,2016,36(8):131-136,177.
[10] 趙東波. 線性回歸模型中多重共線性問題的研究[D].錦州:渤海大學,2017.
[11] 李鋒,蓋玉潔,盧一強.測量誤差模型的自適應LASSO變量選擇方法研究[J].中國科學:數學,2014,44(9):983-1006.
[12] 劉曉寧.基于Lasso特征選擇的方法比較[J].安徽電子信息職業(yè)技術學院學報,2014,13(1):26-30.
[13] 李春紅,吳英,覃朝勇.基于LASSO變量選擇方法的網絡廣告點擊率預測模型研究[J].數理統(tǒng)計與管理,2016,35(5):803-809.
[14] 郭貔,王力,郝元濤.基于LASSO回歸模型與百度搜索數據構建的流感疫情預測系統(tǒng)[J].中國衛(wèi)生統(tǒng)計,2017,34(2):186-191.
[15] 崔東佳. 大數據時代背景下的品牌汽車銷量預測的實證研究[D].開封:河南大學,2014.
[16] 田銳鋒.用季節(jié)性交乘模型預測奧迪汽車在華銷量[J].統(tǒng)計與管理,2016(8):70-71.
(收稿日期:2018-04-03)
作者簡介:
謝天保(1966-),男,博士,副教授,主要研究方向:數據挖掘、電子商務與決策支持。
崔田(1991-),通信作者,男,碩士研究生,主要研究方向:數據挖掘、電子商務。E-mail:328348221@qq.com。