文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2016.09.029
中文引用格式: 錢維揚(yáng),王俊義,仇洪冰. 基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測光紅移上的研究[J].電子技術(shù)應(yīng)用,2016,42(9):111-114.
英文引用格式: Qian Weiyang,Wang Junyi,Qiu Hongbing. The research of data mining technologies based on Hadoop on the application of photometric redshifts[J].Application of Electronic Technique,2016,42(9):111-114.
0 引言
近年來,正在進(jìn)行和已經(jīng)完成的巡天項(xiàng)目(例如:SDSS巡天[1]、VLT/VIRMOS巡天[2]、VST巡天[3]等)為研究宇宙的起源與演化提供了大量豐富的數(shù)據(jù)資源。海量數(shù)據(jù)將帶來許多實(shí)質(zhì)性的挑戰(zhàn),例如怎樣記錄、加工原始數(shù)據(jù);怎樣通過現(xiàn)代計(jì)算機(jī)硬件和網(wǎng)絡(luò)系統(tǒng)存儲(chǔ)、合并、獲取數(shù)據(jù);怎樣快速有效地探索及分析數(shù)據(jù)并將這些數(shù)據(jù)可視化。運(yùn)用數(shù)據(jù)挖掘技術(shù)從海量數(shù)據(jù)中發(fā)現(xiàn)稀有的天體或現(xiàn)象,或者根據(jù)數(shù)據(jù)來區(qū)分不同類型的天體,這對天文學(xué)發(fā)展是至關(guān)重要的。近年來,測光紅移己經(jīng)廣泛地應(yīng)用到天文學(xué)許多領(lǐng)域的科學(xué)研究上,并己迅速成為觀測宇宙學(xué)研究的重要工具[4]。然而,對于SDSS巡天而言,它提供了五億多個(gè)星系的精確測光數(shù)據(jù),卻只對其中三百萬個(gè)星系進(jìn)行了光譜觀測,獲得了這些星系的光譜紅移,對于其他無光譜觀測的星系的紅移如果能找到行之有效的方法,利用SDSS大量的測光數(shù)據(jù)估測星系的紅移,這將對研究星系的形成與演化具有劃時(shí)代的意義。Hadoop是當(dāng)前發(fā)展較快的一個(gè)基于內(nèi)存的開源分布式計(jì)算集群平臺(tái),具有快速、通用、簡單等特點(diǎn),在迭代式機(jī)器學(xué)習(xí)算法和交互式數(shù)據(jù)挖掘應(yīng)用方面具有極高的效率。盡管Hadoop在數(shù)據(jù)挖掘應(yīng)用問題上具有明顯的優(yōu)勢,但至今仍未有講其應(yīng)用于海量天文數(shù)據(jù)中的實(shí)例。本文將結(jié)合斯隆數(shù)字巡天最新公布的數(shù)據(jù)集SDSS-DR12,探索Hadoop平臺(tái)下的數(shù)據(jù)挖掘技術(shù)在測光紅移估值中的適應(yīng)性和應(yīng)用問題。
1 測光紅移
“測光紅移”并不是一個(gè)新名詞,它最早出現(xiàn)在PUSCHELL J J等人1982年的文章中[5]。PUSCHELL J J利用寬帶測光數(shù)據(jù)估測暗射電星系的紅移。LOH E D和SPILLAR E J 1986年第一次在文章題目(Photometric Redshifts of Galaxies)中使用了“測光紅移”的字樣[6]。在20世紀(jì)30年代末,D′ABRUSCO R就已經(jīng)從理論上證明可以根據(jù)星系光譜在5 000 ?魡附近的傾斜度估算紅移[7]。但真正將多波段測光方法應(yīng)用到紅移估測工作中的是BAUM W A,1957年,BAUM W A提出利用測光數(shù)據(jù)研究紅移,并于1962年開發(fā)了一種估計(jì)測光紅移的算法[8]。時(shí)至今日,神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林方法、貝葉斯等數(shù)據(jù)挖掘算法都已經(jīng)成功地應(yīng)用到測光紅移估值中[9-11]。盡管許多研究者對數(shù)據(jù)挖掘方法估算測光紅移問題進(jìn)行了比較深入的探索和研究,但受制于當(dāng)時(shí)的技術(shù)條件,他們都只注重提高測光紅移估算的精度問題,而忽略了測光紅移估值模型的訓(xùn)練時(shí)間問題。尤其是隨著大型巡天項(xiàng)目的發(fā)展,測光數(shù)據(jù)量急劇增長,如何在大數(shù)據(jù)集條件下提高測光紅移估值的精度,同時(shí)大大降低估算模型的訓(xùn)練時(shí)間,使得能近乎實(shí)時(shí)地對測光紅移進(jìn)行估值,幫助科學(xué)家有更多的時(shí)間對結(jié)果進(jìn)行分析,這是一個(gè)值得讓人探討的問題。本文首次使用了基于Hadoop平臺(tái)的數(shù)據(jù)挖掘技術(shù)來解決測光數(shù)據(jù)量過大而導(dǎo)致的模型難以訓(xùn)練或訓(xùn)練時(shí)間過長的問題。
2 測光紅移平臺(tái)及算法
2.1 Hadoop上的數(shù)據(jù)挖掘技術(shù)
Hadoop大數(shù)據(jù)處理框架能夠高效、快速、靈活地對海量數(shù)據(jù)進(jìn)行處理。運(yùn)行在Hadoop上的數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)在Hadoop平臺(tái)上分布式存儲(chǔ)的特點(diǎn)而對傳統(tǒng)的數(shù)據(jù)挖掘算法進(jìn)行的分布式并行化改造,使其能夠?qū)Ψ植际降暮A繑?shù)據(jù)進(jìn)行高效的數(shù)據(jù)挖掘。Mahout是在Hadoop平臺(tái)上實(shí)現(xiàn)數(shù)據(jù)挖掘算法的機(jī)器學(xué)習(xí)庫,目前已經(jīng)集成了感知器算法、邏輯回歸、支持向量機(jī)和K均值等多種算法[12]。下面重在闡述MLPQNA算法及其在Mahout上的實(shí)現(xiàn)。
2.2 MLPQNA回歸模型
MLPQNA算法以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型MLP(Multi Layer Perceptron)為結(jié)構(gòu),QNA(Quasi Newton Algorithm)為學(xué)習(xí)規(guī)則,并已經(jīng)應(yīng)用在分類問題上[13]。前饋神經(jīng)網(wǎng)絡(luò)為一系列輸入變量和輸出變量間的非線性映射提供一個(gè)總體框架。兩層計(jì)算層的前饋神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)表示如式(1)所示:
多層感知器也可以用圖1表示,如圖所示,輸入層(xi)由與輸入變量數(shù)(d)等同的感知器組成,輸出層神經(jīng)元的數(shù)目與輸出變量數(shù)(K)相同,網(wǎng)絡(luò)可能有任意數(shù)目個(gè)中間層(通常為一層)。在一個(gè)完全連接的前饋網(wǎng)絡(luò)中,相鄰層的任意節(jié)點(diǎn)都相連。每個(gè)連接代表一個(gè)自適應(yīng)的權(quán)重(連接強(qiáng)度,范圍在[-1,+1]),每個(gè)感知器對輸入的響應(yīng)由一個(gè)非線性函數(shù)g表示,稱作激活函數(shù)。MLP是由輸入層和兩神經(jīng)元計(jì)算層組成的網(wǎng)絡(luò)模型,每一隱藏層的神經(jīng)元都由一個(gè)非線性激活函數(shù)表示,數(shù)據(jù)從輸入層傳輸至輸出層之后估算學(xué)習(xí)誤差(計(jì)算與期望輸出值的均方誤差MSE),反向運(yùn)用學(xué)習(xí)規(guī)則,調(diào)整權(quán)重,以期降低誤差函數(shù)。在學(xué)習(xí)周期內(nèi),數(shù)據(jù)重復(fù)從輸入端傳送至輸出端,直至一定的迭代次數(shù)或誤差低于一個(gè)閾值,迭代結(jié)束。
QNA與傳統(tǒng)牛頓方法的不同在于誤差函數(shù)黑塞矩陣計(jì)算的不同,傳統(tǒng)牛頓方法用黑塞矩陣來找二次型的平穩(wěn)點(diǎn),然而黑塞矩陣并非總能求得且通常復(fù)雜難算,先計(jì)算函數(shù)梯度,進(jìn)而推導(dǎo)黑塞矩陣,每點(diǎn)w梯度的計(jì)算如式(2):
在式(3)條件下,w對應(yīng)誤差函數(shù)的最小值:
向量稱作牛頓方向,是各種優(yōu)化策略的基礎(chǔ)。QNA不需要計(jì)算H或H-1,用一系列中間步驟以精簡的計(jì)算得到一系列矩陣,獲得更精確的黑塞近似。當(dāng)?shù)降趉次,wk和wk+1位于最優(yōu)化鄢附近,H(w)正定,可寫作:
假設(shè)Ak+1為黑塞矩陣的統(tǒng)計(jì)近似,需滿足以下方程式:
將MLPQNA算法應(yīng)用于PHAT1數(shù)據(jù)集[14],結(jié)果與已知的光譜紅移比較,得出測光紅移的Bias、Scatter、Outliers值,不難發(fā)現(xiàn):與PHAT中幾種機(jī)器學(xué)習(xí)算法比較,無論在18波段還是去除IRAC的14波段,不管對于高紅移還是低紅移的估算,MLPQNA都能獲得最小的Bias值,并且能得到具有競爭力的Scatter值以及離群率。
測光紅移估算統(tǒng)計(jì)指標(biāo):
3 測光紅移應(yīng)用
3.1 斯隆數(shù)字巡天測光數(shù)據(jù)集
斯隆數(shù)字巡天計(jì)劃(Sloan Digital Sky Survey,SDSS)是迄今為止最大規(guī)模的星系圖像和光譜巡天項(xiàng)目。SDSS同時(shí)對天體進(jìn)行5個(gè)波段(u,g,r,i,z)的測量。目前,其最新公布的SDSS-DR12數(shù)據(jù)容量超過了100 TB,包含了近5億個(gè)恒星和星系的精確測光數(shù)據(jù)和300多萬個(gè)天體的光譜數(shù)據(jù),為研究各種測光紅移估算算法提供了很好的實(shí)驗(yàn)溫床。在本實(shí)驗(yàn)中,從SDSS DR12 CasJobs中選取了5個(gè)波段(u,g,r,i,z)的12個(gè)參數(shù)作為測光紅移估算的輸入特征,光譜紅移Spectroscopic redshift的值作為期望值來評估Hadoop中的數(shù)據(jù)挖掘算法,所選用的參數(shù)如表1所示(2 619 593條數(shù)據(jù)記錄,共1.8 GB數(shù)據(jù)量)。
3.2 算法參數(shù)設(shè)置優(yōu)化與測光紅移估算
按照監(jiān)督學(xué)習(xí)的慣例,提取3個(gè)不相交的子集(訓(xùn)練集、驗(yàn)證集、測試集)對Mahout下實(shí)現(xiàn)的MLPQNA算法進(jìn)行評估, 并在使用相同的訓(xùn)練集和測試集的條件下測試算法的內(nèi)部參數(shù)集對估算結(jié)果的影響,以選擇最優(yōu)的內(nèi)部參數(shù)用于測光紅移估算,獲得每個(gè)參數(shù)的最優(yōu)設(shè)置值?;谶@個(gè)方法,選定的MLPQNA最優(yōu)內(nèi)部參數(shù)如表2所示。
根據(jù)表2所獲得的MLPQNA所需的最優(yōu)內(nèi)部參數(shù)值,在Hadoop集群上測得在整個(gè)數(shù)據(jù)集上估值所需時(shí)間、均方差和離群率的結(jié)果如表3所示,測光紅移與光譜紅移的對比如圖2所示,MLPQNA與其他機(jī)器學(xué)習(xí)算法估算結(jié)果比較如表4所示。從表3中看到,基于Hadoop集群的MLPQNA算法能很好地應(yīng)用于測光紅移估算問題當(dāng)中,在數(shù)據(jù)量高達(dá)1.8 GB的情況下,僅僅依靠具有5個(gè)計(jì)算節(jié)點(diǎn)每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)存為1 GB的Hadoop集群,就能使數(shù)據(jù)處理時(shí)間縮短到幾分鐘之內(nèi),而同樣數(shù)據(jù)集用Weka下的感知器算法對測光紅移估算時(shí),花費(fèi)了2 h。相比之下,Hadoop下的數(shù)據(jù)挖掘算法比Weka的感知器算法能更好地適用于具有大數(shù)據(jù)集的測光紅移估算任務(wù)。
3.3 Hadoop 集群節(jié)點(diǎn)數(shù)量對測光紅移估算性能的影響
在Hadoop集群上,將測光數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,通過逐漸增加集群節(jié)點(diǎn)的數(shù)量來研究集群節(jié)點(diǎn)的數(shù)量對估算測光紅移所需時(shí)間、測光紅移估算誤差(Bias)與離群率(Outliers)的影響。研究結(jié)果如圖3、圖4、圖5所示。從圖4和圖5中可以看出,Hadoop集群中節(jié)點(diǎn)數(shù)量的變化對測光紅移估算誤差、離群率影響不大,但對測光紅移估算所需的時(shí)間影響很大(見圖3)。在一定范圍內(nèi),Hadoop集群中節(jié)點(diǎn)數(shù)量越多,紅移估算所需的時(shí)間越少。在集群中的節(jié)點(diǎn)數(shù)量增加的過程中,測光紅移估算所需的時(shí)間有一個(gè)急速下降的過程,最后到達(dá)一個(gè)谷值而幾乎保持不變。測光紅移估算所需時(shí)間急速下降的過程正是由于數(shù)據(jù)挖掘算法并行化使得數(shù)據(jù)處理的速度得到了提升,然而,估算所需時(shí)間降到一定程度而不能再下降則是由于受到網(wǎng)絡(luò)傳輸帶寬、計(jì)算機(jī)內(nèi)存受限等因素的制約。
4 結(jié)論
Hadoop分布式平臺(tái)作為一種新型高效的大數(shù)據(jù)處理模型,為數(shù)據(jù)挖掘技術(shù)在觀測天文學(xué)中的應(yīng)用提供了新的有效工具。本文基于最新的斯隆數(shù)據(jù)巡天測光及光譜數(shù)據(jù)集,通過對參數(shù)空間的探索和代碼的改寫將MLPQNA實(shí)現(xiàn)在Hadoop上的機(jī)器學(xué)習(xí)庫Mahout中,在估測測光紅移的實(shí)驗(yàn)中,與PHAT中幾種機(jī)器學(xué)習(xí)算法比較,無論在18波段還是去除IRAC的14波段,不管對于高紅移還是低紅移的估算,MLPQNA都能獲得最小的Bias值,并且能得到具有競爭力的Scatter值以及離群率。因此基于Hadoop 的數(shù)據(jù)挖掘算法能很好地解決海量天文測光紅移估值問題。并且,隨著Hadoop集群中參與計(jì)算節(jié)點(diǎn)數(shù)量的增加,在保證了測光紅移估算誤差、離群率基本不變的同時(shí),MLPQNA模型的訓(xùn)練速度和最終測光紅移的估算速度得到了大大的提高,這必將使觀測天文學(xué)的各項(xiàng)研究更為高效地開展。
參考文獻(xiàn)
[1] YORK D G,ADELMAN J,ANDERSON J E,et al.The Sloan digital sky survey:Technical summary[J].Astron.J.,2000,120(3):338-347.
[2] FEVRE L,VETTOLANI G,MACCAGNI D,et al.VirmosVLT deep survey[C].Astronomical Telescopes & Instrumentation,2003,4834:173-182.
[3] CAPACCIOLI M,ARNABOLDI M,MANCIN D,et al.The VST-VLT survey telescope[C].Instrumentation and Measurement Technology Conference,1999,2:776-781.
[4] 王丹,張彥霞,趙永恒,等.測光紅移算法概述[J].天文學(xué)進(jìn)展,2008,26(3):266-277.
[5] PUSCHELL J J,OWEN F N,LAING R A.Near-infrared photometry of distant radio galaxies-Spectral flux distributions and redshift estimates[J].Astrophysical Journal,1982,257(6):57-61.
[6] LOH E D,SPILLAR E J.Photometric redshifts of galaxies[J].Astrophysical Journal,1986,303(1):154-161.
[7] D′ABRUSCO R,STAIANO A,LONGO G,et al.Mining the SDSS archive.I.Photometric redshifts in the nearby universe[J].Astrophysical Journal,2007,663(2):752-764.
[8] BAUM W A.Photoelectric magnitudes and red-shifts[C].Proceedings from IAU Symposium no.15.New York,USA:Macmillan Press,1962:390.
[9] COLLISTER A A,LAGAV O.ANNZ:Estimating photometric redshifts using artificial neural networks[J].Astrophysics,2004,116(818):345-351.
[10] CARLILES S,BUDAV′ARI T,HEINI S,et al.Random forests for photometric redshifts[J].Astrophysical Journal.,2010,712(1):511-515.
[11] WOLF C.Bayesian photometric redshifts with empirical training sets[C].MNRAS,2009,397(1):520-533.
[12] 張明輝,王清心.基于Hadoop的數(shù)據(jù)挖掘算法的分析與研究[D].昆明:昆明理工大學(xué),2012.
[13] BRESCIAL M,CAVUOTI S,PAOLILLO M,et al.The detection of globular clusters in galaxies as a data mining problem[J].MNRAS,2012,421(2):1155-1165.
[14] HILDEBRANDT H,ARNOUTS S,CAPAK P,et al.PHAT:Photo-z accuracy testing[J].A&A,2010,523(A31):1-21.