大數據挖掘技術之DM經典模型(DOC 20頁)
大數據挖掘技術之DM經典模型(DOC 20頁)內容簡介
內容摘要
大數據挖掘技術之DM經典模型(下)
數據分析微信公眾號datadw——關注你想了解的,分享你需要的。
接著上篇大數據挖掘技術之DM經典模型(上)文章,接下來我們將探討樸素貝葉斯模型、線性回歸、多元回歸、邏輯回歸分析等模型。
4、樸素貝葉斯模型
表查詢模型簡單有效,但是存在一個問題。隨著輸入數量的額增加,每個單元格中訓練樣本的數量會迅速減少。如果維度為2,且每一維有10個不同的變量,那麼就需要100個單元格,而當有3個維度時,就需要1000個單元格,4個維度就是10000.這樣成指數級的增長,哪怕的傳統數據挖掘中都會遇到明顯瓶頸。
當試圖預測某一個概率值時,樸素貝葉斯模型就提供這一辦法。基本思想:每個輸入變量本身就包含一些預測需要的信息。比如目標變量是取消業務的概率,解釋變量是市場、獲取渠道、初始信用評分、利率計劃、電話號碼類型、手機號以及客戶年齡。這些變量都具有預測能力。根據取消率的顯著差異性,可將每個變量劃分在不同的範圍中。
簡單理解:條件概率是指給定B的條件下A的概率以及給定A的條件下B的概率。
解釋:給定B的條件下A發生的概率,等於給定A的條件下B發生的概率乘以A和B發生的概率的比例。
如果A代表停止續簽,B代表使用黑莓手機,然後給定使用黑莓手機的條件下停止續簽的概率,就是給定停止續簽的條件下使用黑莓手機的概率乘以總體停止續簽的概率與總體使用黑莓手機的概率之比。
4.1、概率、幾率和釋然
?概率:0到1之間的一個數字,表示一個特定結果發生的可能性。一種估計結果概率的方法是計算樣本數據中出現結果次數的百分比。
?幾率:某一特定結果發生於不發生的概率比。如果一個事件發生的概率是0.2,那麼不發生的概率是0.8。那麼其發生的幾率就是1/4。幾率的取值是0到無窮。
..............................
大數據挖掘技術之DM經典模型(下)
數據分析微信公眾號datadw——關注你想了解的,分享你需要的。
接著上篇大數據挖掘技術之DM經典模型(上)文章,接下來我們將探討樸素貝葉斯模型、線性回歸、多元回歸、邏輯回歸分析等模型。
4、樸素貝葉斯模型
表查詢模型簡單有效,但是存在一個問題。隨著輸入數量的額增加,每個單元格中訓練樣本的數量會迅速減少。如果維度為2,且每一維有10個不同的變量,那麼就需要100個單元格,而當有3個維度時,就需要1000個單元格,4個維度就是10000.這樣成指數級的增長,哪怕的傳統數據挖掘中都會遇到明顯瓶頸。
當試圖預測某一個概率值時,樸素貝葉斯模型就提供這一辦法。基本思想:每個輸入變量本身就包含一些預測需要的信息。比如目標變量是取消業務的概率,解釋變量是市場、獲取渠道、初始信用評分、利率計劃、電話號碼類型、手機號以及客戶年齡。這些變量都具有預測能力。根據取消率的顯著差異性,可將每個變量劃分在不同的範圍中。
簡單理解:條件概率是指給定B的條件下A的概率以及給定A的條件下B的概率。
解釋:給定B的條件下A發生的概率,等於給定A的條件下B發生的概率乘以A和B發生的概率的比例。
如果A代表停止續簽,B代表使用黑莓手機,然後給定使用黑莓手機的條件下停止續簽的概率,就是給定停止續簽的條件下使用黑莓手機的概率乘以總體停止續簽的概率與總體使用黑莓手機的概率之比。
4.1、概率、幾率和釋然
?概率:0到1之間的一個數字,表示一個特定結果發生的可能性。一種估計結果概率的方法是計算樣本數據中出現結果次數的百分比。
?幾率:某一特定結果發生於不發生的概率比。如果一個事件發生的概率是0.2,那麼不發生的概率是0.8。那麼其發生的幾率就是1/4。幾率的取值是0到無窮。
..............................
用戶登陸
大數據熱門資料
大數據相關下載