<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    無(wú)為

    無(wú)為則可為,無(wú)為則至深!

      BlogJava :: 首頁(yè) :: 聯(lián)系 :: 聚合  :: 管理
      190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

    引言

    決策樹(shù)對(duì)比神經(jīng)元網(wǎng)絡(luò)的優(yōu)點(diǎn)在于可以生成一些規(guī)則。

    當(dāng)我們進(jìn)行一些決策,同時(shí)需要相應(yīng)的理由的時(shí)候,使用神經(jīng)元網(wǎng)絡(luò)就不行了。

    本章介紹三個(gè)算法 CART,CHAID,C4.5 。

    決策樹(shù)是如何工作的

    決策樹(shù)一般都是自上而下的來(lái)生成的。

    選擇分割的方法有好幾種,但是目的都是一致的:對(duì)目標(biāo)類嘗試進(jìn)行最佳的分割。

    從根到葉子節(jié)點(diǎn)都有一條路徑,這條路徑就是一條“規(guī)則”。

    決策樹(shù)可以是二叉的,也可以是多叉的。

    對(duì)每個(gè)節(jié)點(diǎn)的衡量:

    1)??????? 通過(guò)該節(jié)點(diǎn)的記錄數(shù)

    2)??????? 如果是葉子節(jié)點(diǎn)的話,分類的路徑

    3)??????? 對(duì)葉子節(jié)點(diǎn)正確分類的比例。

    有些規(guī)則的效果可以比其他的一些規(guī)則要好。

    決策樹(shù)對(duì)于常規(guī)統(tǒng)計(jì)方法的優(yōu)點(diǎn)。

    CART

    Diversity( 整體 )-diversity( 左節(jié)點(diǎn) )-diversity( 右節(jié)點(diǎn) ) ,值越大,分割就越好。

    三種 diversity 的指標(biāo):

    1.???????? min(P(c1),P(c2))

    2.???????? 2P(c1)P(c2)

    3.???????? [P(c1)logP(c1)]+[P(c2)logP(c2)]

    這幾個(gè)參數(shù)有相同的性質(zhì):當(dāng)其中的類是均勻分布的時(shí)候,值最大;當(dāng)有一個(gè)類的個(gè)數(shù)為 0 的時(shí)候,值為 0 。

    選擇分割的時(shí)候,對(duì)每個(gè)字段都考慮;對(duì)每個(gè)字段中的值先排序,然后再一一計(jì)算。最后選出最佳的分割。

    樹(shù)的生成:

    錯(cuò)誤率的衡量:最初生成的樹(shù)中也是有錯(cuò)誤率的!因?yàn)橛行┤~子節(jié)點(diǎn)并不是“ Pure ”的。

    樹(shù)的修剪: 是不是當(dāng)所以的葉子都很純是,這棵樹(shù)就能工作的很好呢 ?

    修剪的要點(diǎn)是:應(yīng)該回溯多少、如何從眾多的子樹(shù)總尋找最佳的。

    1)???????? 鑒別生成候選子樹(shù) ?????? :使用一個(gè)調(diào)整的錯(cuò)誤率。 AE(T)=E(T)+ a leaf_count(T) 。一步步的生成一些候選子樹(shù)。

    2)???????? 對(duì)子樹(shù)的評(píng)估:通過(guò) test set 找到最佳子樹(shù)

    3)???????? 對(duì)最佳子樹(shù)進(jìn)行評(píng)估:使用 evaluation set 。

    4)???????? 考慮代價(jià) (cost) 的問(wèn)題。

    C4.5

    C4.5 是從 ID3 演變而來(lái)的。

    C4.5 CART 的區(qū)別 :

    1)?? 樹(shù)的生成方面。

    C4.5 不一定使用兩分法。 C4.5 處理種類變量的時(shí)候,缺省的情況是每個(gè)值作為一個(gè)分支。

    Gain gain ratio

    2)??????? 樹(shù)的修剪

    C4.5 使用原來(lái)的數(shù)據(jù)進(jìn)行測(cè)試。 ( 學(xué)院派 )

    規(guī)則的生成

    CHAID

    1975

    CART C4.5 的區(qū)別:

    1.???????? overfitting 之前就停止樹(shù)的生長(zhǎng)。

    2.???????? 必須都是種類變量。數(shù)值變量必須分成范圍。

    樹(shù)的生長(zhǎng)

    1.???????? 選擇分割。 X2 檢驗(yàn)

    ?

    實(shí)際中使用決策樹(shù)的一些問(wèn)題

    主要是一些數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)表示方面的問(wèn)題。

    案例:銀行信用卡部門

    1.???????? 對(duì)數(shù)據(jù)細(xì)節(jié)的不熟悉。

    2.???????? 數(shù)據(jù)翻譯問(wèn)題。 COBOL

    3.???????? 對(duì)時(shí)間元素的處理: OCCURS 語(yǔ)句的處理??梢愿鶕?jù)需要來(lái)增加一些字段: delta_balance , delta_interest_rate 等等。

    4.???????? CART 算法不考慮字段之間的關(guān)系。

    5.???????? 定義類別。使用的工具在類別字段只可以有兩個(gè)值。我們對(duì)原始數(shù)據(jù)進(jìn)行一些映射處理。“ silent attrition ”。

    6.???????? 數(shù)據(jù)表示的問(wèn)題。需要額外的數(shù)據(jù)。

    7.???????? 消除雜音。

    8.???????? 欺騙性的字段。有些字段其實(shí)和要預(yù)測(cè)的字段并不是獨(dú)立的??梢酝ㄟ^(guò)決策樹(shù)來(lái)進(jìn)行這些字段的判斷。

    9.???????? 過(guò)于總結(jié)性的數(shù)據(jù)。

    10.????? 經(jīng)驗(yàn)和教訓(xùn)。

    將決策樹(shù)運(yùn)用于事件序列:

    PV Future View ,一個(gè)工具。

    Case , 某一時(shí)刻的快照。

    Attribute , 組成 Case 的字段

    Feature , 布爾變量,用于形成決策樹(shù)的內(nèi)部節(jié)點(diǎn)。

    Interpretations ,由 Attribute 組成用于體現(xiàn)領(lǐng)域知識(shí)和關(guān)系的衍生字段。 Interpretations 字段常常是由用戶提供的。

    從歷史推出未來(lái):

    案例學(xué)習(xí):咖啡烘烤的流程控制

    其他的決策樹(shù)的變種

    1)??????? 一次使用超過(guò)一個(gè)字段用于分類

    2)??????? 使用傾斜的超平面切分

    3)??????? 神經(jīng)元樹(shù)

    決策樹(shù)的優(yōu)缺點(diǎn):

    優(yōu)點(diǎn):

    1)??????? 可以生成可以理解的規(guī)則。

    2)??????? 計(jì)算量相對(duì)來(lái)說(shuō)不是很大。

    3)??????? 可以處理連續(xù)和種類字段。

    4)??????? 決策樹(shù)可以清晰的顯示哪些字段比較重要

    缺點(diǎn):

    1)??????? 對(duì)連續(xù)性的字段比較難預(yù)測(cè)。

    2)??????? 對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。

    3)??????? 當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快。

    4)??????? 一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類。



    凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
    、轉(zhuǎn)載請(qǐng)注明來(lái)處和原文作者。非常感謝。

    posted on 2006-06-10 14:01 草兒 閱讀(731) 評(píng)論(0)  編輯  收藏 所屬分類: BI and DM
    主站蜘蛛池模板: 日本亚洲精品色婷婷在线影院| 亚洲a∨无码一区二区| 97人伦色伦成人免费视频| 精品久久久久久久久亚洲偷窥女厕| 亚洲综合av永久无码精品一区二区 | 亚洲精品午夜无码专区| 57pao国产成永久免费视频| MM1313亚洲国产精品| 久久亚洲精精品中文字幕| 国产美女无遮挡免费视频网站| 久久午夜免费鲁丝片| 特级一级毛片免费看| 亚洲网站视频在线观看| 亚洲欧洲久久av| 成人免费视频一区二区三区| a级片在线免费看| 含羞草国产亚洲精品岁国产精品| 亚洲国产精品国自产电影| 免费国产一级特黄久久| 91免费在线播放| 国产麻豆一精品一AV一免费| 亚洲av永久无码| 亚洲另类春色国产精品| 亚洲日韩乱码中文无码蜜桃臀网站| 成年人视频在线观看免费| 污视频在线免费观看| 一级女人18片毛片免费视频| 亚洲国产成人精品激情| 精品久久久久久亚洲| 免费在线观看理论片| 成年人免费观看视频网站| 99视频在线精品免费| 国色精品va在线观看免费视频| 亚洲国产成人AV网站| 亚洲天堂2016| 亚洲av女电影网| 亚洲日韩精品A∨片无码| 亚洲欧洲中文日韩久久AV乱码| 香蕉高清免费永久在线视频| 成人在线免费看片| 久久国产色AV免费看|