《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測光紅移上的研究
基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測光紅移上的研究
2016年電子技術(shù)應(yīng)用第9期
錢維揚(yáng)1,王俊義2,仇洪冰2
1.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林541004; 2.桂林電子科技大學(xué) 認(rèn)知無線電與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,廣西 桂林541004
摘要: 天文數(shù)據(jù)量以指數(shù)量級(jí)快速增長,使得天文數(shù)據(jù)挖掘面臨前所未有的挑戰(zhàn)。分布式集群技術(shù)和云計(jì)算平臺(tái)的飛速發(fā)展,為海量數(shù)據(jù)處理和分析提供了新的研究思路和方法。其中基于內(nèi)存計(jì)算的Hadoop分布式集群技術(shù)更是異軍突起,并在迭代式機(jī)器學(xué)習(xí)和交互式數(shù)據(jù)挖掘應(yīng)用等方面表現(xiàn)出明顯的優(yōu)勢。基于最新釋放的斯隆數(shù)字巡天測光數(shù)據(jù)集研究基于Hadoop平臺(tái)的數(shù)據(jù)挖掘技術(shù)在海量天文巡天數(shù)據(jù)上的適用性和應(yīng)用問題,為海量天文數(shù)據(jù)挖掘提供了新的手段和方法。
中圖分類號(hào): TN93;TP399
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2016.09.029
中文引用格式: 錢維揚(yáng),王俊義,仇洪冰. 基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測光紅移上的研究[J].電子技術(shù)應(yīng)用,2016,42(9):111-114.
英文引用格式: Qian Weiyang,Wang Junyi,Qiu Hongbing. The research of data mining technologies based on Hadoop on the application of photometric redshifts[J].Application of Electronic Technique,2016,42(9):111-114.
The research of data mining technologies based on Hadoop on the application of photometric redshifts
Qian Weiyang1,Wang Junyi2,Qiu Hongbing2
1.School of Information and Communication,Guilin University of Electronic Technology,Guilin 541004,China; 2.Key Laboratory of Cognitive Radio &Information Processing,Guilin University of Electronic Technology,Guilin 541004,China
Abstract: The amount of astronomical data quickly grows by exponential middleweight, making astronomical data mining face unprecedented challenges. The rapid development of distributed cluster technologies and cloud computing platforms provides new research ideas and methods for massive data processing and analysis. Of them, the distributed cluster technology Hadoop is a meteoric rise, and shows comparative advantages in terms of iterative machine learning and interactive data mining applications. This paper uses the latest release of Sloan Digital Sky Survey hotometric data set to explore the suitability and application problems of the data mining technologies based on Hadoop on the massive astronomical survey data, providing new means and methods for massive astronomical data mining.
Key words : data mining;machine learning;Hadoop;MLPQNA;photometric redshifts

0 引言

  近年來,正在進(jìn)行和已經(jīng)完成的巡天項(xiàng)目(例如:SDSS巡天[1]、VLT/VIRMOS巡天[2]、VST巡天[3]等)為研究宇宙的起源與演化提供了大量豐富的數(shù)據(jù)資源。海量數(shù)據(jù)將帶來許多實(shí)質(zhì)性的挑戰(zhàn),例如怎樣記錄、加工原始數(shù)據(jù);怎樣通過現(xiàn)代計(jì)算機(jī)硬件和網(wǎng)絡(luò)系統(tǒng)存儲(chǔ)、合并、獲取數(shù)據(jù);怎樣快速有效地探索及分析數(shù)據(jù)并將這些數(shù)據(jù)可視化。運(yùn)用數(shù)據(jù)挖掘技術(shù)從海量數(shù)據(jù)中發(fā)現(xiàn)稀有的天體或現(xiàn)象,或者根據(jù)數(shù)據(jù)來區(qū)分不同類型的天體,這對天文學(xué)發(fā)展是至關(guān)重要的。近年來,測光紅移己經(jīng)廣泛地應(yīng)用到天文學(xué)許多領(lǐng)域的科學(xué)研究上,并己迅速成為觀測宇宙學(xué)研究的重要工具[4]。然而,對于SDSS巡天而言,它提供了五億多個(gè)星系的精確測光數(shù)據(jù),卻只對其中三百萬個(gè)星系進(jìn)行了光譜觀測,獲得了這些星系的光譜紅移,對于其他無光譜觀測的星系的紅移如果能找到行之有效的方法,利用SDSS大量的測光數(shù)據(jù)估測星系的紅移,這將對研究星系的形成與演化具有劃時(shí)代的意義。Hadoop是當(dāng)前發(fā)展較快的一個(gè)基于內(nèi)存的開源分布式計(jì)算集群平臺(tái),具有快速、通用、簡單等特點(diǎn),在迭代式機(jī)器學(xué)習(xí)算法和交互式數(shù)據(jù)挖掘應(yīng)用方面具有極高的效率。盡管Hadoop在數(shù)據(jù)挖掘應(yīng)用問題上具有明顯的優(yōu)勢,但至今仍未有講其應(yīng)用于海量天文數(shù)據(jù)中的實(shí)例。本文將結(jié)合斯隆數(shù)字巡天最新公布的數(shù)據(jù)集SDSS-DR12,探索Hadoop平臺(tái)下的數(shù)據(jù)挖掘技術(shù)在測光紅移估值中的適應(yīng)性和應(yīng)用問題。

1 測光紅移

  “測光紅移”并不是一個(gè)新名詞,它最早出現(xiàn)在PUSCHELL J J等人1982年的文章中[5]。PUSCHELL J J利用寬帶測光數(shù)據(jù)估測暗射電星系的紅移。LOH E D和SPILLAR E J 1986年第一次在文章題目(Photometric Redshifts of Galaxies)中使用了“測光紅移”的字樣[6]。在20世紀(jì)30年代末,D′ABRUSCO R就已經(jīng)從理論上證明可以根據(jù)星系光譜在5 000 ?魡附近的傾斜度估算紅移[7]。但真正將多波段測光方法應(yīng)用到紅移估測工作中的是BAUM W A,1957年,BAUM W A提出利用測光數(shù)據(jù)研究紅移,并于1962年開發(fā)了一種估計(jì)測光紅移的算法[8]。時(shí)至今日,神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林方法、貝葉斯等數(shù)據(jù)挖掘算法都已經(jīng)成功地應(yīng)用到測光紅移估值中[9-11]。盡管許多研究者對數(shù)據(jù)挖掘方法估算測光紅移問題進(jìn)行了比較深入的探索和研究,但受制于當(dāng)時(shí)的技術(shù)條件,他們都只注重提高測光紅移估算的精度問題,而忽略了測光紅移估值模型的訓(xùn)練時(shí)間問題。尤其是隨著大型巡天項(xiàng)目的發(fā)展,測光數(shù)據(jù)量急劇增長,如何在大數(shù)據(jù)集條件下提高測光紅移估值的精度,同時(shí)大大降低估算模型的訓(xùn)練時(shí)間,使得能近乎實(shí)時(shí)地對測光紅移進(jìn)行估值,幫助科學(xué)家有更多的時(shí)間對結(jié)果進(jìn)行分析,這是一個(gè)值得讓人探討的問題。本文首次使用了基于Hadoop平臺(tái)的數(shù)據(jù)挖掘技術(shù)來解決測光數(shù)據(jù)量過大而導(dǎo)致的模型難以訓(xùn)練或訓(xùn)練時(shí)間過長的問題。

2 測光紅移平臺(tái)及算法

  2.1 Hadoop上的數(shù)據(jù)挖掘技術(shù)

  Hadoop大數(shù)據(jù)處理框架能夠高效、快速、靈活地對海量數(shù)據(jù)進(jìn)行處理。運(yùn)行在Hadoop上的數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)在Hadoop平臺(tái)上分布式存儲(chǔ)的特點(diǎn)而對傳統(tǒng)的數(shù)據(jù)挖掘算法進(jìn)行的分布式并行化改造,使其能夠?qū)Ψ植际降暮A繑?shù)據(jù)進(jìn)行高效的數(shù)據(jù)挖掘。Mahout是在Hadoop平臺(tái)上實(shí)現(xiàn)數(shù)據(jù)挖掘算法的機(jī)器學(xué)習(xí)庫,目前已經(jīng)集成了感知器算法、邏輯回歸、支持向量機(jī)和K均值等多種算法[12]。下面重在闡述MLPQNA算法及其在Mahout上的實(shí)現(xiàn)。

  2.2 MLPQNA回歸模型

  MLPQNA算法以傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型MLP(Multi Layer Perceptron)為結(jié)構(gòu),QNA(Quasi Newton Algorithm)為學(xué)習(xí)規(guī)則,并已經(jīng)應(yīng)用在分類問題上[13]。前饋神經(jīng)網(wǎng)絡(luò)為一系列輸入變量和輸出變量間的非線性映射提供一個(gè)總體框架。兩層計(jì)算層的前饋神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)表示如式(1)所示:

  QQ圖片20161115093327.png

  多層感知器也可以用圖1表示,如圖所示,輸入層(xi)由與輸入變量數(shù)(d)等同的感知器組成,輸出層神經(jīng)元的數(shù)目與輸出變量數(shù)(K)相同,網(wǎng)絡(luò)可能有任意數(shù)目個(gè)中間層(通常為一層)。在一個(gè)完全連接的前饋網(wǎng)絡(luò)中,相鄰層的任意節(jié)點(diǎn)都相連。每個(gè)連接代表一個(gè)自適應(yīng)的權(quán)重(連接強(qiáng)度QQ圖片20161115093511.jpg,范圍在[-1,+1]),每個(gè)感知器對輸入的響應(yīng)由一個(gè)非線性函數(shù)g表示,稱作激活函數(shù)。MLP是由輸入層和兩神經(jīng)元計(jì)算層組成的網(wǎng)絡(luò)模型,每一隱藏層的神經(jīng)元都由一個(gè)非線性激活函數(shù)表示,數(shù)據(jù)從輸入層傳輸至輸出層之后估算學(xué)習(xí)誤差(計(jì)算與期望輸出值的均方誤差MSE),反向運(yùn)用學(xué)習(xí)規(guī)則,調(diào)整權(quán)重,以期降低誤差函數(shù)。在學(xué)習(xí)周期內(nèi),數(shù)據(jù)重復(fù)從輸入端傳送至輸出端,直至一定的迭代次數(shù)或誤差低于一個(gè)閾值,迭代結(jié)束。

圖像 001.png

  QNA與傳統(tǒng)牛頓方法的不同在于誤差函數(shù)黑塞矩陣計(jì)算的不同,傳統(tǒng)牛頓方法用黑塞矩陣來找二次型的平穩(wěn)點(diǎn),然而黑塞矩陣并非總能求得且通常復(fù)雜難算,先計(jì)算函數(shù)梯度,進(jìn)而推導(dǎo)黑塞矩陣,每點(diǎn)w梯度的計(jì)算如式(2):

  QQ圖片20161115093330.png

  在式(3)條件下,w對應(yīng)誤差函數(shù)的最小值:

  QQ圖片20161115093333.png

  向量QQ圖片20161115093552.png稱作牛頓方向,是各種優(yōu)化策略的基礎(chǔ)。QNA不需要計(jì)算H或H-1,用一系列中間步驟以精簡的計(jì)算得到一系列矩陣,獲得更精確的黑塞近似。當(dāng)?shù)降趉次,wk和wk+1位于最優(yōu)化QQ圖片20161115093609.png鄢附近,H(w)正定,可寫作:

  QQ圖片20161115093336.png

  假設(shè)Ak+1為黑塞矩陣的統(tǒng)計(jì)近似,需滿足以下方程式:

  QQ圖片20161115093341.png

  將MLPQNA算法應(yīng)用于PHAT1數(shù)據(jù)集[14],結(jié)果與已知的光譜紅移比較,得出測光紅移的Bias、Scatter、Outliers值,不難發(fā)現(xiàn):與PHAT中幾種機(jī)器學(xué)習(xí)算法比較,無論在18波段還是去除IRAC的14波段,不管對于高紅移還是低紅移的估算,MLPQNA都能獲得最小的Bias值,并且能得到具有競爭力的Scatter值以及離群率。

  測光紅移估算統(tǒng)計(jì)指標(biāo):

  QQ圖片20161115093738.png

  QQ圖片20161115093741.png

  QQ圖片20161115093744.jpgQQ圖片20161115093836.png

3 測光紅移應(yīng)用

  3.1 斯隆數(shù)字巡天測光數(shù)據(jù)集

  斯隆數(shù)字巡天計(jì)劃(Sloan Digital Sky Survey,SDSS)是迄今為止最大規(guī)模的星系圖像和光譜巡天項(xiàng)目。SDSS同時(shí)對天體進(jìn)行5個(gè)波段(u,g,r,i,z)的測量。目前,其最新公布的SDSS-DR12數(shù)據(jù)容量超過了100 TB,包含了近5億個(gè)恒星和星系的精確測光數(shù)據(jù)和300多萬個(gè)天體的光譜數(shù)據(jù),為研究各種測光紅移估算算法提供了很好的實(shí)驗(yàn)溫床。在本實(shí)驗(yàn)中,從SDSS DR12 CasJobs中選取了5個(gè)波段(u,g,r,i,z)的12個(gè)參數(shù)作為測光紅移估算的輸入特征,光譜紅移Spectroscopic redshift的值作為期望值來評估Hadoop中的數(shù)據(jù)挖掘算法,所選用的參數(shù)如表1所示(2 619 593條數(shù)據(jù)記錄,共1.8 GB數(shù)據(jù)量)。

圖像 006.png

  3.2 算法參數(shù)設(shè)置優(yōu)化與測光紅移估算

  按照監(jiān)督學(xué)習(xí)的慣例,提取3個(gè)不相交的子集(訓(xùn)練集、驗(yàn)證集、測試集)對Mahout下實(shí)現(xiàn)的MLPQNA算法進(jìn)行評估, 并在使用相同的訓(xùn)練集和測試集的條件下測試算法的內(nèi)部參數(shù)集對估算結(jié)果的影響,以選擇最優(yōu)的內(nèi)部參數(shù)用于測光紅移估算,獲得每個(gè)參數(shù)的最優(yōu)設(shè)置值?;谶@個(gè)方法,選定的MLPQNA最優(yōu)內(nèi)部參數(shù)如表2所示。

圖像 007.png

  

圖像 008.png

圖像 009.png

根據(jù)表2所獲得的MLPQNA所需的最優(yōu)內(nèi)部參數(shù)值,在Hadoop集群上測得在整個(gè)數(shù)據(jù)集上估值所需時(shí)間、均方差和離群率的結(jié)果如表3所示,測光紅移與光譜紅移的對比如圖2所示,MLPQNA與其他機(jī)器學(xué)習(xí)算法估算結(jié)果比較如表4所示。從表3中看到,基于Hadoop集群的MLPQNA算法能很好地應(yīng)用于測光紅移估算問題當(dāng)中,在數(shù)據(jù)量高達(dá)1.8 GB的情況下,僅僅依靠具有5個(gè)計(jì)算節(jié)點(diǎn)每個(gè)計(jì)算節(jié)點(diǎn)內(nèi)存為1 GB的Hadoop集群,就能使數(shù)據(jù)處理時(shí)間縮短到幾分鐘之內(nèi),而同樣數(shù)據(jù)集用Weka下的感知器算法對測光紅移估算時(shí),花費(fèi)了2 h。相比之下,Hadoop下的數(shù)據(jù)挖掘算法比Weka的感知器算法能更好地適用于具有大數(shù)據(jù)集的測光紅移估算任務(wù)。

圖像 002.png

  3.3 Hadoop 集群節(jié)點(diǎn)數(shù)量對測光紅移估算性能的影響

  在Hadoop集群上,將測光數(shù)據(jù)集分為訓(xùn)練集和測試集兩部分,通過逐漸增加集群節(jié)點(diǎn)的數(shù)量來研究集群節(jié)點(diǎn)的數(shù)量對估算測光紅移所需時(shí)間、測光紅移估算誤差(Bias)與離群率(Outliers)的影響。研究結(jié)果如圖3、圖4、圖5所示。從圖4和圖5中可以看出,Hadoop集群中節(jié)點(diǎn)數(shù)量的變化對測光紅移估算誤差、離群率影響不大,但對測光紅移估算所需的時(shí)間影響很大(見圖3)。在一定范圍內(nèi),Hadoop集群中節(jié)點(diǎn)數(shù)量越多,紅移估算所需的時(shí)間越少。在集群中的節(jié)點(diǎn)數(shù)量增加的過程中,測光紅移估算所需的時(shí)間有一個(gè)急速下降的過程,最后到達(dá)一個(gè)谷值而幾乎保持不變。測光紅移估算所需時(shí)間急速下降的過程正是由于數(shù)據(jù)挖掘算法并行化使得數(shù)據(jù)處理的速度得到了提升,然而,估算所需時(shí)間降到一定程度而不能再下降則是由于受到網(wǎng)絡(luò)傳輸帶寬、計(jì)算機(jī)內(nèi)存受限等因素的制約。

圖像 003.png


圖像 004.png

圖像 005.png

4 結(jié)論

  Hadoop分布式平臺(tái)作為一種新型高效的大數(shù)據(jù)處理模型,為數(shù)據(jù)挖掘技術(shù)在觀測天文學(xué)中的應(yīng)用提供了新的有效工具。本文基于最新的斯隆數(shù)據(jù)巡天測光及光譜數(shù)據(jù)集,通過對參數(shù)空間的探索和代碼的改寫將MLPQNA實(shí)現(xiàn)在Hadoop上的機(jī)器學(xué)習(xí)庫Mahout中,在估測測光紅移的實(shí)驗(yàn)中,與PHAT中幾種機(jī)器學(xué)習(xí)算法比較,無論在18波段還是去除IRAC的14波段,不管對于高紅移還是低紅移的估算,MLPQNA都能獲得最小的Bias值,并且能得到具有競爭力的Scatter值以及離群率。因此基于Hadoop 的數(shù)據(jù)挖掘算法能很好地解決海量天文測光紅移估值問題。并且,隨著Hadoop集群中參與計(jì)算節(jié)點(diǎn)數(shù)量的增加,在保證了測光紅移估算誤差、離群率基本不變的同時(shí),MLPQNA模型的訓(xùn)練速度和最終測光紅移的估算速度得到了大大的提高,這必將使觀測天文學(xué)的各項(xiàng)研究更為高效地開展。

  參考文獻(xiàn)

  [1] YORK D G,ADELMAN J,ANDERSON J E,et al.The Sloan digital sky survey:Technical summary[J].Astron.J.,2000,120(3):338-347.

  [2] FEVRE L,VETTOLANI G,MACCAGNI D,et al.VirmosVLT deep survey[C].Astronomical Telescopes & Instrumentation,2003,4834:173-182.

  [3] CAPACCIOLI M,ARNABOLDI M,MANCIN D,et al.The VST-VLT survey telescope[C].Instrumentation and Measurement Technology Conference,1999,2:776-781.

  [4] 王丹,張彥霞,趙永恒,等.測光紅移算法概述[J].天文學(xué)進(jìn)展,2008,26(3):266-277.

  [5] PUSCHELL J J,OWEN F N,LAING R A.Near-infrared photometry of distant radio galaxies-Spectral flux distributions and redshift estimates[J].Astrophysical Journal,1982,257(6):57-61.

  [6] LOH E D,SPILLAR E J.Photometric redshifts of galaxies[J].Astrophysical Journal,1986,303(1):154-161.

  [7] D′ABRUSCO R,STAIANO A,LONGO G,et al.Mining the SDSS archive.I.Photometric redshifts in the nearby universe[J].Astrophysical Journal,2007,663(2):752-764.

  [8] BAUM W A.Photoelectric magnitudes and red-shifts[C].Proceedings from IAU Symposium no.15.New York,USA:Macmillan Press,1962:390.

  [9] COLLISTER A A,LAGAV O.ANNZ:Estimating photometric redshifts using artificial neural networks[J].Astrophysics,2004,116(818):345-351.

  [10] CARLILES S,BUDAV′ARI T,HEINI S,et al.Random forests for photometric redshifts[J].Astrophysical Journal.,2010,712(1):511-515.

  [11] WOLF C.Bayesian photometric redshifts with empirical training sets[C].MNRAS,2009,397(1):520-533.

  [12] 張明輝,王清心.基于Hadoop的數(shù)據(jù)挖掘算法的分析與研究[D].昆明:昆明理工大學(xué),2012.

  [13] BRESCIAL M,CAVUOTI S,PAOLILLO M,et al.The detection of globular clusters in galaxies as a data mining problem[J].MNRAS,2012,421(2):1155-1165.

  [14] HILDEBRANDT H,ARNOUTS S,CAPAK P,et al.PHAT:Photo-z accuracy testing[J].A&A,2010,523(A31):1-21.

  


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。