大數據技術體係(PDF 29頁)
大數據技術體係(PDF 29頁)內容簡介
內容摘要
根據大數據處理的生命周期,大數據的技術體係通常可以分為大數據采集與
預處理,大數據存儲與管理,大數據計算模式與係統,大數據分析與挖掘,大數
據可視化計算以及大數據隱私與安全等幾個方麵。
3.1 大數據采集與預處理
3.1.1 問題與挑戰
根據MapReduce產生數據的應用係統分類,大數據的采集主要有四種來源:
管理信息係統、Web 信息係統、物理信息係統、科學實驗係統。
1. 管理信息係統是指企業、機關內部的信息係統,如事務處理係統、辦公自動
化係統,主要用於經營和管理,為特定用戶的工作和業務提供支持。數據的
產生既有終端用戶的原始輸入,也有係統的二次加工處理。係統的組織結構
上是專用的,數據通常是結構化的。
2. Web 信息係統包括互聯網上的各種信息係統,如社交網站、社會媒體、搜索
引擎等,主要用於構造虛擬的信息空間,為廣大用戶提供信息服務和社交服
務。係統的組織結構是開放式的,大部分數據是半結構化或無結構的。數據
的產生者主要是在線用戶。電子商務、電子政務是在 Web 上運行的管理信息
係統。
3. 物理信息係統是指關於各種物理對象和物理過程的信息係統,如實時監控、
實時檢測,主要用於生產調度、過程控製、現場指揮、環境保護等。係統的
組織結構上是封閉的,數據由各種嵌入式傳感設備產生的,可以是關於物理、
化學、生物等性質和狀態的基本測量值,也可以是關於行為和狀態的音頻、
視頻等多媒體數據。
4. 科學實驗係統,實際上也屬於物理信息係統,但其實驗環境是預先設定的,
主要用於研究和學術,數據是有選擇的、可控的,有時可能是人工模擬生成
的仿真數據。
在物理信息
..............................
根據大數據處理的生命周期,大數據的技術體係通常可以分為大數據采集與
預處理,大數據存儲與管理,大數據計算模式與係統,大數據分析與挖掘,大數
據可視化計算以及大數據隱私與安全等幾個方麵。
3.1 大數據采集與預處理
3.1.1 問題與挑戰
根據MapReduce產生數據的應用係統分類,大數據的采集主要有四種來源:
管理信息係統、Web 信息係統、物理信息係統、科學實驗係統。
1. 管理信息係統是指企業、機關內部的信息係統,如事務處理係統、辦公自動
化係統,主要用於經營和管理,為特定用戶的工作和業務提供支持。數據的
產生既有終端用戶的原始輸入,也有係統的二次加工處理。係統的組織結構
上是專用的,數據通常是結構化的。
2. Web 信息係統包括互聯網上的各種信息係統,如社交網站、社會媒體、搜索
引擎等,主要用於構造虛擬的信息空間,為廣大用戶提供信息服務和社交服
務。係統的組織結構是開放式的,大部分數據是半結構化或無結構的。數據
的產生者主要是在線用戶。電子商務、電子政務是在 Web 上運行的管理信息
係統。
3. 物理信息係統是指關於各種物理對象和物理過程的信息係統,如實時監控、
實時檢測,主要用於生產調度、過程控製、現場指揮、環境保護等。係統的
組織結構上是封閉的,數據由各種嵌入式傳感設備產生的,可以是關於物理、
化學、生物等性質和狀態的基本測量值,也可以是關於行為和狀態的音頻、
視頻等多媒體數據。
4. 科學實驗係統,實際上也屬於物理信息係統,但其實驗環境是預先設定的,
主要用於研究和學術,數據是有選擇的、可控的,有時可能是人工模擬生成
的仿真數據。
在物理信息
..............................
用戶登陸
大數據熱門資料
大數據相關下載