您現在的位置: 18luck新利全站下载 >> 管理信息化>> 大數據>> 資料信息

大數據技術文檔(DOC 27頁)

所屬分類:
大數據
文件大小:
743 KB
下載地址:
相關資料:
大數據技術
大數據技術文檔(DOC 27頁)內容簡介
內容摘要
第1章 緒論
隨著計算機技術、通信網、互聯網的迅速發展和日益普及,Internet上的信息量快速增長。從海量的信息塊中快速檢索出用戶真正需要的信息正變得很困難,信息搜索應向著具有分布式處理能力方向發展,本係統利用hadoop分布式開源框架良好的擴充能力、較低的運作成本、較高的效率和穩定性來滿足需求。
現狀:
缺陷和不足:
(1)結果主題相關度不高。
(2)搜素速度慢。
引入hadoop+nutch+solr的優點:
(1)hadoop平台數據處理高效。hadoop集群處理數據比起單機節省數倍的時間,數據量越大優勢越明顯,滿足信息采集對數據處理的速度和質量要求。
(2)hadoop平台具有高擴展性。可以適當擴展集群數量來滿足日益不斷增加的數據量,而這並不會毀壞原集群的特性。
(3)安全可靠性高。集群的數據冗餘機製使得hadoop能從單點失效中恢複,即Hadoop能自動進行數據的多次備份,以確保數據不丟失,即使當某個服務器發生故障時,它也能重新部署計算任務。
(4) Nutch不僅提供抓取網頁的功能,還提供了解析網頁、建立鏈接數據庫、對網頁進行評分、建立solr索引等豐富的功能。
(5)通過Nutch插件機製實現了係統的可擴展性、靈活性和可維護性,提高了開發效率。能夠根據用戶需求進行靈活定製抓取和解析,提高了係統使用性。
(6)通過solr集群,采用分布式索引在不同的機器上並行執行,實現檢索服務器之間的信息交換。可以通過設定主題進行索引檢索。
研究目標和內容
本文的研究目標是全麵深入分析研究分布式搜索引擎,進而優化分布式搜索引擎中的索引構建策略,內容包括:

..............................

Baidu
map