為闡述單個(gè)變量的分布函數(shù)的求法,首先講一個(gè)擲圖釘?shù)睦樱涸O(shè)擲為頭的可能性是
t,
那么
t
的可能性概率分布函數(shù)
P(t|
ξ
)
。那么下一次擲為頭的概率是
P(x=heads|
ξ
)=
∫
p(x=heads|t,
ξ
)p(t|
ξ
)dt=
∫
t*p(t|
ξ
)dt=E(t|
ξ
)
。而且,進(jìn)一步地如果擲為頭后的
t
的分布概率就為
p(t| x=heads,
ξ
)=c* p(x=heads|t,
ξ
)* p(t|
ξ
)=c*t* p(t|
ξ
).
這樣的話
p(t|m heads ,n tails ,
ξ
)=c*t(m)*(1-t)(n)* p(t|
ξ
) [
其中
t(m)
表示
t
的
m
次方
]
,也就求得
m
次擲為“頭”,
n
次擲為尾后的
t
的概率分布情況。上面的是對(duì)于兩個(gè)結(jié)果的情況的分析,那么對(duì)于離散的多種結(jié)果的情況,我們可以用同樣的方法進(jìn)行分析。下面講怎么樣用貝葉斯方法來進(jìn)行分類。
定義:如果
K
為屬性的個(gè)數(shù),
D
定義為含有
K
個(gè)值的向量。表示為
D=(x1=v1,x2=v2,….xk=vk),
其中
x
為屬性,
v
為屬性值。一個(gè)
Concept
定義為相似記錄的集合,
Concept C
定義為
K
個(gè)可能的屬性值的分布函數(shù)的向量。表示為
C=(f1,f2,…fk)
。這里
fk
是一個(gè)分布函數(shù),它由在這個(gè)
Concept
里第
k
個(gè)屬性的所有屬性值決定。例如,
vk1,vk2,….vkN
是
N
個(gè)記錄
D1,D2…DN
的第
k
個(gè)屬性值
,
那么
fk
可能的分布函數(shù)是
fk(xk|D1…DN)=Mk*exp{-(xk-ak)*(xk-ak)/2
б
k*
бk
}
.
定義
H=(C1,C2…,CJ)
為所有各種分類集合的集合。對(duì)于新的一個(gè)記錄
D,
如果
Cj
為那個(gè)接受
D
的那一類,
Hj
為接受了以后變化了的
H,
那么衡量
Cj
接受
D
的好壞就由
P(Hj|DH)=P(Hj|H)P(D|HjH)/P(D|H)
來決定,它的最大值也就對(duì)應(yīng)哪個(gè)最適合的
Cj
。假定
P(Hj|H)
對(duì)于每一個(gè)
j
都是相等的,那么我們只需要比較
P(D|HjH)
。而
P(D|HjH) =P(Cj|HjH)*P(D|CjHjH)=|Cj|/|C|*P(D|Cj),P(D|Cj)
表示
D
屬于
Cj
的程度。這里
|C|
表示
C
中記錄的個(gè)數(shù)。,
P(D|C)=
П
P(
vk|fk
)
對(duì)于連續(xù)變量,
P(vk|fk)=fk(vk)
?
xk,
這兒
?
xk
是
vk
周圍很小的一個(gè)常量范圍。對(duì)于離散變量,
P(vk|fk)=C
中第
k
個(gè)屬性值是
vk
的個(gè)數(shù)
/C
中記錄的個(gè)數(shù)。
凡是有該標(biāo)志的文章,都是該blog博主Caoer(草兒)原創(chuàng),凡是索引、收藏
、轉(zhuǎn)載請(qǐng)注明來處和原文作者。非常感謝。