<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    無為

    無為則可為,無為則至深!

      BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
      190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

    引言

    決策樹對比神經(jīng)元網(wǎng)絡(luò)的優(yōu)點(diǎn)在于可以生成一些規(guī)則。

    當(dāng)我們進(jìn)行一些決策,同時(shí)需要相應(yīng)的理由的時(shí)候,使用神經(jīng)元網(wǎng)絡(luò)就不行了。

    本章介紹三個(gè)算法 CART,CHAID,C4.5 。

    決策樹是如何工作的

    決策樹一般都是自上而下的來生成的。

    選擇分割的方法有好幾種,但是目的都是一致的:對目標(biāo)類嘗試進(jìn)行最佳的分割。

    從根到葉子節(jié)點(diǎn)都有一條路徑,這條路徑就是一條“規(guī)則”。

    決策樹可以是二叉的,也可以是多叉的。

    對每個(gè)節(jié)點(diǎn)的衡量:

    1)??????? 通過該節(jié)點(diǎn)的記錄數(shù)

    2)??????? 如果是葉子節(jié)點(diǎn)的話,分類的路徑

    3)??????? 對葉子節(jié)點(diǎn)正確分類的比例。

    有些規(guī)則的效果可以比其他的一些規(guī)則要好。

    決策樹對于常規(guī)統(tǒng)計(jì)方法的優(yōu)點(diǎn)。

    CART

    Diversity( 整體 )-diversity( 左節(jié)點(diǎn) )-diversity( 右節(jié)點(diǎn) ) ,值越大,分割就越好。

    三種 diversity 的指標(biāo):

    1.???????? min(P(c1),P(c2))

    2.???????? 2P(c1)P(c2)

    3.???????? [P(c1)logP(c1)]+[P(c2)logP(c2)]

    這幾個(gè)參數(shù)有相同的性質(zhì):當(dāng)其中的類是均勻分布的時(shí)候,值最大;當(dāng)有一個(gè)類的個(gè)數(shù)為 0 的時(shí)候,值為 0 。

    選擇分割的時(shí)候,對每個(gè)字段都考慮;對每個(gè)字段中的值先排序,然后再一一計(jì)算。最后選出最佳的分割。

    樹的生成:

    錯(cuò)誤率的衡量:最初生成的樹中也是有錯(cuò)誤率的!因?yàn)橛行┤~子節(jié)點(diǎn)并不是“ Pure ”的。

    樹的修剪: 是不是當(dāng)所以的葉子都很純是,這棵樹就能工作的很好呢 ?

    修剪的要點(diǎn)是:應(yīng)該回溯多少、如何從眾多的子樹總尋找最佳的。

    1)???????? 鑒別生成候選子樹 ?????? :使用一個(gè)調(diào)整的錯(cuò)誤率。 AE(T)=E(T)+ a leaf_count(T) 。一步步的生成一些候選子樹。

    2)???????? 對子樹的評估:通過 test set 找到最佳子樹

    3)???????? 對最佳子樹進(jìn)行評估:使用 evaluation set

    4)???????? 考慮代價(jià) (cost) 的問題。

    C4.5

    C4.5 是從 ID3 演變而來的。

    C4.5 CART 的區(qū)別 :

    1)?? 樹的生成方面。

    C4.5 不一定使用兩分法。 C4.5 處理種類變量的時(shí)候,缺省的情況是每個(gè)值作為一個(gè)分支。

    Gain gain ratio 。

    2)??????? 樹的修剪

    C4.5 使用原來的數(shù)據(jù)進(jìn)行測試。 ( 學(xué)院派 )

    規(guī)則的生成

    CHAID

    1975

    CART C4.5 的區(qū)別:

    1.???????? overfitting 之前就停止樹的生長。

    2.???????? 必須都是種類變量。數(shù)值變量必須分成范圍。

    樹的生長

    1.???????? 選擇分割。 X2 檢驗(yàn)

    ?

    實(shí)際中使用決策樹的一些問題

    主要是一些數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)表示方面的問題。

    案例:銀行信用卡部門

    1.???????? 對數(shù)據(jù)細(xì)節(jié)的不熟悉。

    2.???????? 數(shù)據(jù)翻譯問題。 COBOL

    3.???????? 對時(shí)間元素的處理: OCCURS 語句的處理。可以根據(jù)需要來增加一些字段: delta_balance , delta_interest_rate 等等。

    4.???????? CART 算法不考慮字段之間的關(guān)系。

    5.???????? 定義類別。使用的工具在類別字段只可以有兩個(gè)值。我們對原始數(shù)據(jù)進(jìn)行一些映射處理?!?/span> silent attrition ”。

    6.???????? 數(shù)據(jù)表示的問題。需要額外的數(shù)據(jù)。

    7.???????? 消除雜音。

    8.???????? 欺騙性的字段。有些字段其實(shí)和要預(yù)測的字段并不是獨(dú)立的??梢酝ㄟ^決策樹來進(jìn)行這些字段的判斷。

    9.???????? 過于總結(jié)性的數(shù)據(jù)。

    10.????? 經(jīng)驗(yàn)和教訓(xùn)。

    將決策樹運(yùn)用于事件序列:

    PV Future View ,一個(gè)工具。

    Case , 某一時(shí)刻的快照。

    Attribute , 組成 Case 的字段

    Feature , 布爾變量,用于形成決策樹的內(nèi)部節(jié)點(diǎn)。

    Interpretations ,由 Attribute 組成用于體現(xiàn)領(lǐng)域知識和關(guān)系的衍生字段。 Interpretations 字段常常是由用戶提供的。

    從歷史推出未來:

    案例學(xué)習(xí):咖啡烘烤的流程控制

    其他的決策樹的變種

    1)??????? 一次使用超過一個(gè)字段用于分類

    2)??????? 使用傾斜的超平面切分

    3)??????? 神經(jīng)元樹

    決策樹的優(yōu)缺點(diǎn):

    優(yōu)點(diǎn):

    1)??????? 可以生成可以理解的規(guī)則。

    2)??????? 計(jì)算量相對來說不是很大。

    3)??????? 可以處理連續(xù)和種類字段。

    4)??????? 決策樹可以清晰的顯示哪些字段比較重要

    缺點(diǎn):

    1)??????? 對連續(xù)性的字段比較難預(yù)測。

    2)??????? 對有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。

    3)??????? 當(dāng)類別太多時(shí),錯(cuò)誤可能就會增加的比較快。

    4)??????? 一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來分類。



    凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
    、轉(zhuǎn)載請注明來處和原文作者。非常感謝。

    posted on 2006-06-10 14:01 草兒 閱讀(731) 評論(0)  編輯  收藏 所屬分類: BI and DM
    主站蜘蛛池模板: 四虎影视久久久免费| 最近2018中文字幕免费视频| AV片在线观看免费| 亚洲av无码一区二区三区不卡| 亚洲av无码一区二区三区人妖 | 亚洲国产精品一区二区久久hs | 亚洲AV乱码一区二区三区林ゆな | 一区二区三区免费视频网站| 欧美三级在线电影免费| 亚洲另类激情综合偷自拍| jizz在线免费观看| 国产无遮挡色视频免费视频| 亚洲一区中文字幕| 全部免费毛片在线播放| 亚洲熟女少妇一区二区| 日韩a毛片免费观看| 日韩高清在线高清免费| 亚洲制服丝袜中文字幕| 18禁美女裸体免费网站| 亚洲AV永久无码精品成人| sihu国产精品永久免费| 亚洲成a人片在线播放| 亚洲国产精品无码久久| 免费无码黄十八禁网站在线观看| 亚洲黄色网址大全| 免费日本一区二区| 亚洲日韩小电影在线观看| 九九免费久久这里有精品23| 免费A级毛片无码久久版| 亚洲hairy多毛pics大全| 成年人在线免费观看| 亚洲精品中文字幕无乱码麻豆| 最近中文字幕免费2019| 亚洲小视频在线观看| 国产精品免费无遮挡无码永久视频| 亚洲精品成人片在线播放| 中文字幕在线免费看线人| 国内精品久久久久久久亚洲| a毛片成人免费全部播放| 亚洲真人日本在线| 国产高清对白在线观看免费91 |