大數據分析的分布式技術(PDF 22頁)
大數據分析的分布式技術(PDF 22頁)內容簡介
內容摘要
近年來,隨著大數據時代的到來以及互聯網、傳感器和科學數據分析等領域的快速發展,數據量近乎每年
在成倍地增長 [1] .無論是在科學領域(生物學、地理學、天文學、氣象學等),還是在工程領域(網絡數據分析、市
場數據分析等),都麵臨著數據雪崩的問題 [2] ,大數據的規模效應給數據存儲、管理以及數據分析帶來了極大的
挑戰 [3,4] .OLAP(on-line analytical processing)聯機分析處理是共享多維信息的、針對特定問題的聯機數據訪問和
分析的快速軟件技術 [5] ,OLAP 按照其實現方式不同,可以分為 3 種類型,分別是 ROLAP,MOLAP 和 HOLAP [6] .
其中,ROLAP 采用關係表存儲維信息和事實數據;MOLAP 則采用多維數據結構存儲維信息和事實數據;而
HOLAP 稱其為混合 OLAP,該方法結合了 ROLAP 和 MOLAP 技術 [7] .無論是何種 OLAP,都需要存儲和計算平台
的支持,尤其是在大數據環境下.
為了解決大數據所帶來的諸多挑戰,學界和業界湧現出許多新技術,如分布式文件係統 [8] 、NoSQL 數據庫
係統 [9] 、MapReduce 編程模型 [10] 以及相關的優化方法,這些技術都被廣泛地運用到大數據分析中.MapReduce
編程模型是廣為人知的可擴展、靈活且高效的分布式編程框架.Hadoop 是 MapReduce 的開源實現,可對海量數
據進行可靠、高效、可擴展的並行處理.基於 Hadoop [11] 的實現,湧現出大量的分布式數據管理係統,並廣泛地運
用在大數據管理和分析領域,如 Hive [12] ,HBase [13] ,HadoopDB [14] 等.一方麵,盡管這些數據管理係統均可支持
OALP,但其性能往往不盡如人意.例如,基於 HBase 的 OLAP 引擎 OLAP4cloud [15] 框架屬於一種基於雲計算技術
的 OLAP 實現,它采用列存儲數據存儲結構以及索引等技術優化 OLAP 的性能.但是,OLAP4cloud 並不提供維
信息的管理,也無法直接支持上卷下鑽操作,因此,OLAP4cloud 僅限於支持對度量數據的查詢和簡單的聚集操
作.另一方麵,這些數據庫係統均未針對 OLAP 進行特殊的優化,我們之前的研究 [16] 表明,連接操作在 ROLAP 中
是非常頻繁且相當耗時的操作,當數據量或維數量增加時,連接操作會成為 OLAP 的瓶頸.MOLAP 可以避免數
據集的連接操作,因此在性能方麵有著天生的優勢,但 MOLAP 需要集中式存儲多維數據模型,且耗費大量空間,
如何基於分布式文件係統和 MapReduce 模型實現 MOLAP 模型則是一個難題.據我們所知,在大數據分析領域,
尚未有關於分布式 MOLAP 技術的權威報道,也鮮有成熟的基於 MapReduce 的 MOLAP 係統,該問題亟待解決.
..............................
近年來,隨著大數據時代的到來以及互聯網、傳感器和科學數據分析等領域的快速發展,數據量近乎每年
在成倍地增長 [1] .無論是在科學領域(生物學、地理學、天文學、氣象學等),還是在工程領域(網絡數據分析、市
場數據分析等),都麵臨著數據雪崩的問題 [2] ,大數據的規模效應給數據存儲、管理以及數據分析帶來了極大的
挑戰 [3,4] .OLAP(on-line analytical processing)聯機分析處理是共享多維信息的、針對特定問題的聯機數據訪問和
分析的快速軟件技術 [5] ,OLAP 按照其實現方式不同,可以分為 3 種類型,分別是 ROLAP,MOLAP 和 HOLAP [6] .
其中,ROLAP 采用關係表存儲維信息和事實數據;MOLAP 則采用多維數據結構存儲維信息和事實數據;而
HOLAP 稱其為混合 OLAP,該方法結合了 ROLAP 和 MOLAP 技術 [7] .無論是何種 OLAP,都需要存儲和計算平台
的支持,尤其是在大數據環境下.
為了解決大數據所帶來的諸多挑戰,學界和業界湧現出許多新技術,如分布式文件係統 [8] 、NoSQL 數據庫
係統 [9] 、MapReduce 編程模型 [10] 以及相關的優化方法,這些技術都被廣泛地運用到大數據分析中.MapReduce
編程模型是廣為人知的可擴展、靈活且高效的分布式編程框架.Hadoop 是 MapReduce 的開源實現,可對海量數
據進行可靠、高效、可擴展的並行處理.基於 Hadoop [11] 的實現,湧現出大量的分布式數據管理係統,並廣泛地運
用在大數據管理和分析領域,如 Hive [12] ,HBase [13] ,HadoopDB [14] 等.一方麵,盡管這些數據管理係統均可支持
OALP,但其性能往往不盡如人意.例如,基於 HBase 的 OLAP 引擎 OLAP4cloud [15] 框架屬於一種基於雲計算技術
的 OLAP 實現,它采用列存儲數據存儲結構以及索引等技術優化 OLAP 的性能.但是,OLAP4cloud 並不提供維
信息的管理,也無法直接支持上卷下鑽操作,因此,OLAP4cloud 僅限於支持對度量數據的查詢和簡單的聚集操
作.另一方麵,這些數據庫係統均未針對 OLAP 進行特殊的優化,我們之前的研究 [16] 表明,連接操作在 ROLAP 中
是非常頻繁且相當耗時的操作,當數據量或維數量增加時,連接操作會成為 OLAP 的瓶頸.MOLAP 可以避免數
據集的連接操作,因此在性能方麵有著天生的優勢,但 MOLAP 需要集中式存儲多維數據模型,且耗費大量空間,
如何基於分布式文件係統和 MapReduce 模型實現 MOLAP 模型則是一個難題.據我們所知,在大數據分析領域,
尚未有關於分布式 MOLAP 技術的權威報道,也鮮有成熟的基於 MapReduce 的 MOLAP 係統,該問題亟待解決.
..............................
用戶登陸
大數據熱門資料
大數據相關下載