引言
決策樹(shù)對(duì)比神經(jīng)元網(wǎng)絡(luò)的優(yōu)點(diǎn)在于可以生成一些規(guī)則。
當(dāng)我們進(jìn)行一些決策,同時(shí)需要相應(yīng)的理由的時(shí)候,使用神經(jīng)元網(wǎng)絡(luò)就不行了。
本章介紹三個(gè)算法
CART,CHAID,C4.5
。
決策樹(shù)是如何工作的
決策樹(shù)一般都是自上而下的來(lái)生成的。
選擇分割的方法有好幾種,但是目的都是一致的:對(duì)目標(biāo)類嘗試進(jìn)行最佳的分割。
從根到葉子節(jié)點(diǎn)都有一條路徑,這條路徑就是一條“規(guī)則”。
決策樹(shù)可以是二叉的,也可以是多叉的。
對(duì)每個(gè)節(jié)點(diǎn)的衡量:
1)???????
通過(guò)該節(jié)點(diǎn)的記錄數(shù)
2)???????
如果是葉子節(jié)點(diǎn)的話,分類的路徑
3)???????
對(duì)葉子節(jié)點(diǎn)正確分類的比例。
有些規(guī)則的效果可以比其他的一些規(guī)則要好。
決策樹(shù)對(duì)于常規(guī)統(tǒng)計(jì)方法的優(yōu)點(diǎn)。
CART
Diversity(
整體
)-diversity(
左節(jié)點(diǎn)
)-diversity(
右節(jié)點(diǎn)
)
,值越大,分割就越好。
三種
diversity
的指標(biāo):
1.????????
min(P(c1),P(c2))
2.????????
2P(c1)P(c2)
3.????????
[P(c1)logP(c1)]+[P(c2)logP(c2)]
這幾個(gè)參數(shù)有相同的性質(zhì):當(dāng)其中的類是均勻分布的時(shí)候,值最大;當(dāng)有一個(gè)類的個(gè)數(shù)為
0
的時(shí)候,值為
0
。
選擇分割的時(shí)候,對(duì)每個(gè)字段都考慮;對(duì)每個(gè)字段中的值先排序,然后再一一計(jì)算。最后選出最佳的分割。
樹(shù)的生成:
錯(cuò)誤率的衡量:最初生成的樹(shù)中也是有錯(cuò)誤率的!因?yàn)橛行┤~子節(jié)點(diǎn)并不是“
Pure
”的。
樹(shù)的修剪:
是不是當(dāng)所以的葉子都很純是,這棵樹(shù)就能工作的很好呢
?
修剪的要點(diǎn)是:應(yīng)該回溯多少、如何從眾多的子樹(shù)總尋找最佳的。
1)????????
鑒別生成候選子樹(shù)
??????
:使用一個(gè)調(diào)整的錯(cuò)誤率。
AE(T)=E(T)+
a
leaf_count(T)
。一步步的生成一些候選子樹(shù)。
2)????????
對(duì)子樹(shù)的評(píng)估:通過(guò)
test set
找到最佳子樹(shù)
3)????????
對(duì)最佳子樹(shù)進(jìn)行評(píng)估:使用
evaluation set
。
4)????????
考慮代價(jià)
(cost)
的問(wèn)題。
C4.5
C4.5
是從
ID3
演變而來(lái)的。
C4.5
和
CART
的區(qū)別
:
1)??
樹(shù)的生成方面。
C4.5
不一定使用兩分法。
C4.5
處理種類變量的時(shí)候,缺省的情況是每個(gè)值作為一個(gè)分支。
Gain
和
gain ratio
。
2)???????
樹(shù)的修剪
C4.5
使用原來(lái)的數(shù)據(jù)進(jìn)行測(cè)試。
(
學(xué)院派
)
規(guī)則的生成
CHAID
1975
年
和
CART
和
C4.5
的區(qū)別:
1.????????
在
overfitting
之前就停止樹(shù)的生長(zhǎng)。
2.????????
必須都是種類變量。數(shù)值變量必須分成范圍。
樹(shù)的生長(zhǎng)
1.????????
選擇分割。
X2
檢驗(yàn)
?
實(shí)際中使用決策樹(shù)的一些問(wèn)題
主要是一些數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)表示方面的問(wèn)題。
案例:銀行信用卡部門
1.????????
對(duì)數(shù)據(jù)細(xì)節(jié)的不熟悉。
2.????????
數(shù)據(jù)翻譯問(wèn)題。
COBOL
3.????????
對(duì)時(shí)間元素的處理:
OCCURS
語(yǔ)句的處理??梢愿鶕?jù)需要來(lái)增加一些字段:
delta_balance
,
delta_interest_rate
等等。
4.????????
CART
算法不考慮字段之間的關(guān)系。
5.????????
定義類別。使用的工具在類別字段只可以有兩個(gè)值。我們對(duì)原始數(shù)據(jù)進(jìn)行一些映射處理。“
silent attrition
”。
6.????????
數(shù)據(jù)表示的問(wèn)題。需要額外的數(shù)據(jù)。
7.????????
消除雜音。
8.????????
欺騙性的字段。有些字段其實(shí)和要預(yù)測(cè)的字段并不是獨(dú)立的??梢酝ㄟ^(guò)決策樹(shù)來(lái)進(jìn)行這些字段的判斷。
9.????????
過(guò)于總結(jié)性的數(shù)據(jù)。
10.?????
經(jīng)驗(yàn)和教訓(xùn)。
將決策樹(shù)運(yùn)用于事件序列:
PV Future View
,一個(gè)工具。
Case
,
某一時(shí)刻的快照。
Attribute
,
組成
Case
的字段
Feature
,
布爾變量,用于形成決策樹(shù)的內(nèi)部節(jié)點(diǎn)。
Interpretations
,由
Attribute
組成用于體現(xiàn)領(lǐng)域知識(shí)和關(guān)系的衍生字段。
Interpretations
字段常常是由用戶提供的。
從歷史推出未來(lái):
案例學(xué)習(xí):咖啡烘烤的流程控制
其他的決策樹(shù)的變種
1)???????
一次使用超過(guò)一個(gè)字段用于分類
2)???????
使用傾斜的超平面切分
3)???????
神經(jīng)元樹(shù)
決策樹(shù)的優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
1)???????
可以生成可以理解的規(guī)則。
2)???????
計(jì)算量相對(duì)來(lái)說(shuō)不是很大。
3)???????
可以處理連續(xù)和種類字段。
4)???????
決策樹(shù)可以清晰的顯示哪些字段比較重要
缺點(diǎn):
1)???????
對(duì)連續(xù)性的字段比較難預(yù)測(cè)。
2)???????
對(duì)有時(shí)間順序的數(shù)據(jù),需要很多預(yù)處理的工作。
3)???????
當(dāng)類別太多時(shí),錯(cuò)誤可能就會(huì)增加的比較快。
4)???????
一般的算法分類的時(shí)候,只是根據(jù)一個(gè)字段來(lái)分類。
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請(qǐng)注明來(lái)處和原文作者。非常感謝。