HBase在互聯(lián)網(wǎng)領(lǐng)域有廣泛的應(yīng)用,比如:互聯(lián)網(wǎng)的消息系統(tǒng)的存儲、訂單的存儲、搜索原材料的存儲、用戶畫像數(shù)據(jù)的存儲等。得益于HBase海量的存儲量及超高并發(fā)寫入讀取量。HBase在09年就開始在工業(yè)界大范圍使用,在學(xué)術(shù)界,也有非常多的高校、機(jī)構(gòu)在研究HBase應(yīng)用于不同的行業(yè),本文主要梳理下這些資料(主要是中文資料,有一些是碩士論文\期刊),這些很多都在工業(yè)界使用了。大家也可以感覺下,HBase應(yīng)用的方面還是非常多的。大家也可以看下是否的場景是否對應(yīng)起來。 由于涉及到版權(quán),我提供鏈接,不提供資源下載,請大家見諒。
HBase最主要的特性
HBase基于HDFS,可以提供廉價(jià)的解決方案。在阿里云ApsaraDB for HBase會發(fā)布基于D1、I2的物理機(jī)方案,存儲成本為0.1元每GB每月左右,且可以在線動態(tài)添加節(jié)點(diǎn),增加容量。 無需一次性投入全年的量。
HBase容量可以無限擴(kuò)容:在100T的數(shù)據(jù)量上毫無壓力,在1P的數(shù)據(jù)量上也類似。
HBase提供超高的并發(fā)量:主要得益于系統(tǒng)的除了Master之外的所有節(jié)點(diǎn)都直接跟客戶端通信,且系統(tǒng)自動分區(qū)。有的系統(tǒng)會有一個(gè)路由中心,此會極大的限制并發(fā)量及流量
跟Spark、hadoopMR等分析系統(tǒng)結(jié)合 關(guān)于 阿里云HBase產(chǎn)品的優(yōu)勢見:阿里云HBase優(yōu)勢
行業(yè):
物聯(lián)網(wǎng)行業(yè):
基于HBase的大規(guī)模無線傳感網(wǎng)絡(luò)數(shù)據(jù)存儲系統(tǒng) : 無線傳感網(wǎng)絡(luò)(WSN)存在分布的跨區(qū)域性,隨著無線傳感網(wǎng)絡(luò)的擴(kuò)張,傳感器數(shù)目增多,將產(chǎn)生大規(guī)模的傳感數(shù)據(jù).針對存儲大規(guī)模無線傳感網(wǎng)絡(luò)數(shù)據(jù)的問題,提出了一個(gè)兩層分布式存儲架構(gòu),使用分布式數(shù)據(jù)庫HBase存儲跨區(qū)域的無線傳感網(wǎng)絡(luò)數(shù)據(jù)和全局?jǐn)?shù)據(jù)存儲管理目錄,實(shí)現(xiàn)一個(gè)近實(shí)時(shí)的存儲系統(tǒng).實(shí)驗(yàn)結(jié)果證明,該系統(tǒng)有良好的擴(kuò)展性、存儲和查詢效率.
車聯(lián)網(wǎng):
基于HBase的車聯(lián)網(wǎng)傳感數(shù)據(jù)管理系統(tǒng)設(shè)計(jì) :關(guān)系型數(shù)據(jù)庫由于面向行存儲以及無法擴(kuò)展等原因,已很難滿足大規(guī)模車聯(lián)網(wǎng)傳感數(shù)據(jù)的存儲與查詢要求.針對該問題,設(shè)計(jì)了一個(gè)基于非關(guān)系型數(shù)據(jù)庫HBase存儲的車聯(lián)網(wǎng)傳感數(shù)據(jù)管理系統(tǒng).該系統(tǒng)采用Hadoop與HBase搭建分布式實(shí)驗(yàn)平臺,采用C#語言開發(fā)Web網(wǎng)頁端.通過與傳統(tǒng)關(guān)系型數(shù)據(jù)庫SQL Server的存儲與查詢效率進(jìn)行對比分析,表明HBase在處理大規(guī)模車聯(lián)網(wǎng)傳感數(shù)據(jù)方面具有明顯優(yōu)勢.
基于HBase的交通數(shù)據(jù)區(qū)域查詢方法 :隨著智能交通的發(fā)展,交通數(shù)據(jù)呈現(xiàn)出指數(shù)性增長.為了提升時(shí)空區(qū)域查詢性能,論文提出了一種基于HBase的交通數(shù)據(jù)區(qū)域查詢方法HRQ.該方法利用交通數(shù)據(jù)的三維時(shí)空特性,采用Geohash算法將交通數(shù)據(jù)的經(jīng)緯度信息轉(zhuǎn)為Geohash編碼,然后與時(shí)間組合作為HBase行鍵,并設(shè)計(jì)了相應(yīng)的查詢算法.實(shí)驗(yàn)結(jié)果表明,與直接組合經(jīng)緯度和時(shí)間作為行鍵的方法相比,在基于時(shí)間范圍的區(qū)域查詢上HRQ方法的性能要高30%以上,在基于區(qū)域范圍的區(qū)域查詢上HRQ的性能優(yōu)勢隨著查詢區(qū)域的增大而增加.
交通
基于HBase的交通流數(shù)據(jù)實(shí)時(shí)存儲系統(tǒng) :交通流數(shù)據(jù)具有多來源、高速率、體量大等特征,傳統(tǒng)數(shù)據(jù)存儲方法和系統(tǒng)暴露出擴(kuò)展性弱和存儲實(shí)時(shí)性低等問題.針對上述問題,設(shè)計(jì)并實(shí)現(xiàn)了一套基于HBase交通流數(shù)據(jù)實(shí)時(shí)存儲系統(tǒng).該系統(tǒng)采用分布式存儲架構(gòu),通過前端的預(yù)處理操作對數(shù)據(jù)進(jìn)行規(guī)范化整理,利用多源緩沖區(qū)結(jié)構(gòu)對不同類型的流數(shù)據(jù)進(jìn)行隊(duì)列劃分,并結(jié)合一致性哈希算法、多線程技術(shù)、行鍵優(yōu)化設(shè)計(jì)等策略將數(shù)據(jù)并行存儲到HBase集群服務(wù)器中.實(shí)驗(yàn)結(jié)果表明:該系統(tǒng)與基于Oracle的實(shí)時(shí)存儲系統(tǒng)相比,其存儲性能提升了3~5倍;與原生的HBase方法相比,其存儲性能提升了2~3倍,并且具有良好的擴(kuò)展性能.
電力
HBase 在智能電網(wǎng)異構(gòu)數(shù)據(jù)同步中的應(yīng)用:未來的智能電網(wǎng)在運(yùn)行中將會產(chǎn)生海量的多態(tài)、異構(gòu)數(shù)據(jù),對這些數(shù)據(jù)的可靠獲取、實(shí)時(shí)分析、同步及處理會給電網(wǎng)信息系統(tǒng)帶來前所未有的壓力。因此,把電網(wǎng)大數(shù)據(jù)遷移到云端—數(shù)據(jù)中心,來實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的精準(zhǔn)、實(shí)時(shí)同步則顯得尤為必要。以解決未來智能電網(wǎng)大數(shù)據(jù)處理問題為出發(fā)點(diǎn),通過對電網(wǎng)數(shù)據(jù)中心相關(guān)功能需求進(jìn)行細(xì)致分析,對比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫建?;A(chǔ),提出了基于Hbase架構(gòu)的智能電網(wǎng)數(shù)據(jù)中心的解決方案。最后通過對比 MySQL 性能進(jìn)行模擬測試,得出所提出的設(shè)計(jì)方案能夠很好地適用于未來智能電網(wǎng)數(shù)據(jù)中心的構(gòu)建以及異構(gòu)數(shù)據(jù)的同步,達(dá)到電網(wǎng)大數(shù)據(jù)的實(shí)時(shí)共享、監(jiān)測及準(zhǔn)確分析、處理的目的,在未來智能電網(wǎng)信息管理系統(tǒng)中具有廣闊的應(yīng)用前景。
金融
基于HBase的金融時(shí)序數(shù)據(jù)存儲系統(tǒng) : 設(shè)計(jì)并實(shí)現(xiàn)了1個(gè)基于HBase的金融時(shí)序數(shù)據(jù)的存儲系統(tǒng)。設(shè)計(jì)了基于金融時(shí)序數(shù)據(jù)的HBase預(yù)分區(qū)策略,可解決HBase存儲熱點(diǎn)的問題;采用了行鍵優(yōu)化策略和基于時(shí)序數(shù)據(jù)的表設(shè)計(jì)策略,可解決數(shù)據(jù)存儲分散的問題;使用了提供異步處理機(jī)制的事件驅(qū)動的Netty框架所編寫的中間件接收采集器發(fā)送的請求,可解決高并發(fā)事務(wù)的處理問題。實(shí)驗(yàn)結(jié)果表明,與HBase原生方法相比,該系統(tǒng)的性能在處理高并發(fā)事務(wù)時(shí)更好。
航空
基于HBase的民用航空發(fā)動機(jī)大數(shù)據(jù)管理系統(tǒng) : 為克服傳統(tǒng)關(guān)系型數(shù)據(jù)庫存儲管理海量航空發(fā)動機(jī)狀態(tài)監(jiān)控?cái)?shù)據(jù)的不足,本研究提出了基于HBase的民用航空發(fā)動機(jī)大數(shù)據(jù)管理系統(tǒng).首先分析了該系統(tǒng)的功能需求,給出了系統(tǒng)整體架構(gòu)與模塊設(shè)計(jì),并對關(guān)鍵技術(shù)進(jìn)行了闡述.最后設(shè)計(jì)試驗(yàn)對比HBase與Oracle的搜索效率.試驗(yàn)結(jié)果表明檢索結(jié)果集較大時(shí)HBase的搜索效率明顯高于Oracle.本研究中提出的航空發(fā)動機(jī)大數(shù)據(jù)管理系統(tǒng)為發(fā)動機(jī)海量數(shù)據(jù)的存儲管理提供了一種解決方案.
小文件存儲(圖片視頻等)
一種基于HBase的海量圖片存儲技術(shù) 針對海量圖片存儲,已有若干個(gè)基于Hadoop的方案被設(shè)計(jì)出來.這些方案在系統(tǒng)層小文件合并、全局名字空間以及通用性方面存在不足.本文基于HBase提出了一種海量圖片存儲技術(shù),成功解決了上述問題.本文將介紹基于HBase海量圖片存儲技術(shù)方案,分析其原理及優(yōu)勢,該方案在城市交通監(jiān)控中得到應(yīng)用驗(yàn)證.
基于 HBase 的小文件高效存儲方法 :基于 Hadoop 平臺的相關(guān)系統(tǒng)得到了廣泛應(yīng)用。Hadoop 分布式文件系統(tǒng)(Hadoop distributed file system, HDFS)通過分布式的工作方式,負(fù)責(zé)處理海量文件數(shù)據(jù)。對 HDFS 而言,海量數(shù)據(jù)中的小文件存儲問題制約著系統(tǒng)高效工作的能力。針對海量數(shù)據(jù)中小文件讀寫效率低的情況,提出一種基于 HBase(Hadoop database)的海量小文件高效存儲方法,利用 HBase 的存儲優(yōu)勢,將小文件直接存儲于 HBase,從而有效減少元數(shù)據(jù)節(jié)點(diǎn)服務(wù)器(Name-Node)的負(fù)載,并對上層應(yīng)用系統(tǒng)提供透明的訪問接口。實(shí)驗(yàn)結(jié)果表明,該方法可以實(shí)現(xiàn)海量小文件的高效存儲,提高 HDFS 環(huán)境下小文件的讀寫效率。