<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    無為

    無為則可為,無為則至深!

      BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
      190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks
    ?

    關聯(lián)規(guī)則簡介:

    關聯(lián)規(guī)則雖然來源于

    POS 中,但是可以應用于很多領域。只要一個客戶在同一個時間里買了多樣東西,或者在一段時間了做了好幾樣事情就可能是一個潛在的應用。例如:

    • 用信用卡購物,如汽車租金和旅館費,可以看他下一個要買的東西。

    • 電話公司提供的多項服務,以研究捆綁銷售的問題。

    • 銀行提供的多項服務,來分析客戶可能需要那些服務。

    • 不尋常的多項保險申請可能是欺詐行為。

    數(shù)據(jù)挖掘什么時候有用?三種規(guī)則:有用的、價值不高的、費解的。價值不高的規(guī)則往往是對一些商業(yè)領域內的規(guī)則重現(xiàn)。費解的規(guī)則往往是數(shù)據(jù)中一些偶然的東西,從而也沒有什么采取行動的價值。

    虛擬元素(

    Virtual Items )是一個在事務中認為加入的元素。用來對事務進行一定的區(qū)別。加入虛擬元素后我們能做的事情:

    • 對比促銷時和平常銷售時的區(qū)別。

    • 按照銷售的區(qū)域來看,按照銷售的方式來看。

    • 比較城市和郊區(qū)的區(qū)別。

    • 比較各個季節(jié)的不同。

    數(shù)據(jù)挖掘的基本流程:

  • 選擇合適的元素。考慮不同的統(tǒng)計級別,選擇哪種細節(jié)程度。細節(jié)的顆粒越粗,那么算法的工作量就越小;細節(jié)的顆粒越細,那么結果的可實施性就越好。關鍵:只有當數(shù)據(jù)中的元素出現(xiàn)的次數(shù)大致相同是,關聯(lián)規(guī)則的效果才最好。虛擬元素不能太多!應該注意數(shù)據(jù)的質量。

  • 產(chǎn)生規(guī)則。什么是規(guī)則?就是一個條件和一個結果的和:
  • If condition then result 。實際中有用的往往是結果中只有一個元素的情況。支持度、可信度和提高率(興趣度)。

    元組

    出現(xiàn)頻率

    A

    45%

    B

    42.5%

    C

    40%

    AB

    25%

    AC

    20%

    BC

    15%

    ABC

    5%

    支持度:就是一個元組在整個數(shù)據(jù)庫中出現(xiàn)的概率。如上面的例子中

    S(A)=0.45

    可信度:它是針對規(guī)則而言的。對于一般的規(guī)則,它的可信度

    =p condition and result /p condition )。例如有如下規(guī)則: If B and C then A 。則它的可信度是: p B and C and A /p B and C =5%/15%=0.33

    提高率(或者叫興趣度):對于上面的一個規(guī)則,我們可以發(fā)現(xiàn),當我們從從數(shù)據(jù)庫中直接取

    A 的時候,概率是 45% ;可在我們的規(guī)則中,取到 A 的概率卻只有 33.3% 。顯然,這種情況是我們不愿意見到的,我們應該略去這樣的一些規(guī)則。所以我們引入了興趣度的概念,具體的公式如下:興趣度 =p(condition and result)/p(condition)*p(result) 。當興趣度大于 1 的時候,這條規(guī)則就是比較好的;當興趣度小于 1 的時候,這條規(guī)則就是沒有很大意義的。興趣度越大,規(guī)則的實際意義就越好。

    • 克服實際應用中數(shù)據(jù)量暴大的問題。當數(shù)據(jù)量增大時,要考慮的元素組就增長的很快了。

    分裂規(guī)則:例如:If A and not B then C

    用關聯(lián)規(guī)則的方法對序列規(guī)則的分析:

    為了進行序列模式的分析,事務數(shù)據(jù)要滿足額外的兩個條件:

    • 一個時標或者序列信息用以決定事務發(fā)生的順序。

    • 標識信息,用以區(qū)別不同的事務。

    可以用于原因結果分析。

     

    關聯(lián)規(guī)則的優(yōu)缺點:

    優(yōu)點:

    • 它可以產(chǎn)生清晰有用的結果。

    • 它支持間接數(shù)據(jù)挖掘。

    • 可以處理變長的數(shù)據(jù)。

    • 它的計算的消耗量是可以預見的。

    缺點:

    • 當問題變大時,計算量增長得厲害。

    • 難以決定正確的數(shù)據(jù)。

    • 容易忽略稀有的數(shù)據(jù)。



    凡是有該標志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
    、轉載請注明來處和原文作者。非常感謝。

    posted on 2006-06-10 14:05 草兒 閱讀(251) 評論(0)  編輯  收藏 所屬分類: BI and DM
    主站蜘蛛池模板: av无码免费一区二区三区| 久久午夜免费视频| 国产成人精品久久免费动漫| 亚洲AV日韩精品一区二区三区| 亚洲不卡视频在线观看| 99热这里有免费国产精品| 久久精品亚洲中文字幕无码网站| 一区二区三区免费精品视频| 久久大香香蕉国产免费网站| 免费看片在线观看| 亚洲国产精品专区在线观看| 亚洲国产成人精品无码区花野真一| 男女拍拍拍免费视频网站| 亚洲精品第一国产综合精品99| mm1313亚洲国产精品无码试看| 狼友av永久网站免费观看| 在线aⅴ亚洲中文字幕| 国产免费不卡v片在线观看| 亚洲伊人久久大香线蕉结合| 午夜视频在线观看免费完整版| 亚洲国产精品无码第一区二区三区| 日本一线a视频免费观看| 黄网站色成年片大免费高清| 亚洲va国产va天堂va久久| 精品国产污污免费网站aⅴ| 亚洲福利视频一区二区三区| 99久久免费精品国产72精品九九| 美女尿口扒开图片免费| 亚洲av综合av一区| 黄色片在线免费观看| 夜夜爽妓女8888视频免费观看| 亚洲成A人片777777| 一二三四在线播放免费观看中文版视频 | 18女人腿打开无遮掩免费| 亚洲成人网在线播放| 免费看国产成年无码AV片| 久久久久久久久久久免费精品| 亚洲人成网站在线观看播放动漫 | 免费看无码自慰一区二区| 五月天婷婷精品免费视频| 亚洲午夜免费视频|