您現在的位置: 18luck新利全站下载 >> 新利体育取现 >> 業務管理>> 資料信息

業務管理及數據管理知識分析模型(PDF 47頁)

所屬分類:
業務管理
文件大小:
3844 KB
下載地址:
相關資料:
業務管理, 管理知識
業務管理及數據管理知識分析模型(PDF 47頁)內容簡介

業務管理及數據管理知識分析模型(PDF 47頁)目錄:

1.緒論
2.用戶行為數據分析方法
3.移動互聯數據源分析與數據處理算法
4.構建推薦係統
5.案例應用

業務管理及數據管理知識分析模型(PDF 47頁)簡介:

過程如下:
A. 獲取範本庫
a) 我們通過網絡爬蟲、文本分析等方法獲取具有代表性和區分性的範本,即包含或與該範本有高度匹配的Url與該模板是同一類型的網頁。當然,可能存在有代表性但區分性不高的範本,如image,由於很多網頁都會包含圖片,所以,包含image的url肯定是有圖片信息,但是否具有其它屬性,如遊戲、漫畫等,就不可知了。所以我們按區分性將模板加權,按被辨識出來類別的權重將url加以歸類[36]。
b) 按照已有用戶上網行為分析的信息分類表(如上圖),加以豐富、改造後,給與每個模板分類標號後,將該模板加入模板庫中。
c) 定期、不定期(在有時事熱點發生時)的更新、修改範本庫。
B.匹配 url
將獲取的url 與模板庫中的模板匹配並加以歸類。
C.定義用戶興趣點
目的是要反映出大眾上網行為習慣的傾向,但由於數據量較大不能全部使用。我們由抽樣調查[28,29]理論計算得出,在準確率95%、誤差2%的條件下,僅需3500人左右就能反映出大眾(百萬級別)的特征。因此,我們從3 萬多不同的imsi 號碼中隨機了3000 個出來加以統計分析來反映這些公眾興趣特征。根據各url 分類後,我們把點擊各類的人次作了統計。
按選定規則將上網行為歸為29 個類型,統計結果顯示這3000 人在7 天中上網次數72 萬次,人均日上網次數34.3699,而有url 記錄的有41 萬,缺失大概3/7,對於這部分缺失,我們選擇使用url 分類後等比拓展來代替原有缺失。這種方法固然不是最合適的,但是由於對應ip 依然很難提供分類信息,因此這種快捷而有效方法還是可行的。


..............................

Baidu
map