您現在的位置: 18luck新利全站下载 >> 管理信息化>> 大數據>> 資料信息

大數據技術體係(PDF 29頁)

所屬分類:
大數據
文件大小:
449 KB
下載地址:
相關資料:
大數據技術, 技術體係
大數據技術體係(PDF 29頁)內容簡介
內容摘要
根據大數據處理的生命周期,大數據的技術體係通常可以分為大數據采集與
預處理,大數據存儲與管理,大數據計算模式與係統,大數據分析與挖掘,大數
據可視化計算以及大數據隱私與安全等幾個方麵。
3.1 大數據采集與預處理
3.1.1 問題與挑戰
根據MapReduce產生數據的應用係統分類,大數據的采集主要有四種來源:
管理信息係統、Web 信息係統、物理信息係統、科學實驗係統。
1. 管理信息係統是指企業、機關內部的信息係統,如事務處理係統、辦公自動
化係統,主要用於經營和管理,為特定用戶的工作和業務提供支持。數據的
產生既有終端用戶的原始輸入,也有係統的二次加工處理。係統的組織結構
上是專用的,數據通常是結構化的。
2. Web 信息係統包括互聯網上的各種信息係統,如社交網站、社會媒體、搜索
引擎等,主要用於構造虛擬的信息空間,為廣大用戶提供信息服務和社交服
務。係統的組織結構是開放式的,大部分數據是半結構化或無結構的。數據
的產生者主要是在線用戶。電子商務、電子政務是在 Web 上運行的管理信息
係統。
3. 物理信息係統是指關於各種物理對象和物理過程的信息係統,如實時監控、
實時檢測,主要用於生產調度、過程控製、現場指揮、環境保護等。係統的
組織結構上是封閉的,數據由各種嵌入式傳感設備產生的,可以是關於物理、
化學、生物等性質和狀態的基本測量值,也可以是關於行為和狀態的音頻、
視頻等多媒體數據。
4. 科學實驗係統,實際上也屬於物理信息係統,但其實驗環境是預先設定的,
主要用於研究和學術,數據是有選擇的、可控的,有時可能是人工模擬生成
的仿真數據。
在物理信息
..............................

Baidu
map