亚洲人成图片网站,亚洲av片在线观看,色天使亚洲综合一区二区

changedi — Tue, 11 May 2010 13:07:00 GMT

1. 划分聚类

其实从某�U�角度讲�Q�划分聚�c�L��完全不用赘述的一�U�聚�c�L��法，可能也是最常见的聚�cȝ��法了(ji��n)。著名的k-means��法��是个中典型。这�ơ的内容主要是通过k-means聚类��法来��M��介绍一下划分聚�c�R�?/span>

��单来�Ԍ��k均��D��cȝ��竟做�?ji��n)什么事�Q�我们可以这��h��看，�?/span>N个数据点的集�?/span>D={x1,x2,…,xn}�Q�每�?/span>xi代表一个特征向量，目标是将�q?/span>N个点�Ҏ(gu��)��某种�怼�准则��其划分�?/span>K个分�c�M��。�?/span>k均值所表达的重要在于相似准则的选取�Q�即不断的��用类��的均值来完成�q�样的划分。当然也有书把这�U�相似准则称之�ؓ(f��)评分函数。基于划分的聚类��法对于homogeneity的实现是通过选取适当的评分函数�ƈ使每一个数据点到它所属的聚类中心(j��)的距��L��化。而关键就是如何定义这�U�距��，和所谓的聚类中心(j��)。�D个例子来�Ԍ��如果定义聚类间距��Mؓ(f��)�Ƨ式距离�Q�那么可以��用协方差的概忉|��定义通用的评分函数。划分聚�cȝ��思想是最直观和易懂的分类思想�Q�因此我也不在这里长��介�l�，�q�是以算法的实现和代码来直观表现划分聚类的性能�?/span>

2. ��法实现

我们�?/span>k-means��法��Z��来实现划分聚�c�R��该��法的复杂度�?/span>O(KnI)�Q�其�?/span>I是�P代次数。这�U�算法的一个变体是依次分析每个数据点，而且一旦有数据点被重新分配��更新聚�c�M��?j��)，反复的在数据点中循环直到解不再变化�?/span>k-means��法的搜索过�E�局限于全部可能的划分空间的一个很��的部分。因此有可能因�ؓ(f��)��法收敛到评分函数的局部而非全局最��而错�q�更好的解。当然缓解方法可以通过选取随机起始�Ҏ(gu��)��改进搜烦(ch��)�Q�我们例子中�?/span>KMPP��法�Q�，或者利用模拟退火等�{�略来改善搜索性能。因此，从这个角度来理解�Q�聚�c�d��析实质上是一个在庞大的解�I�间中优化特定评分函数的搜烦(ch��)问题�?/span>

不多说了(ji��n)�Q�直接上代码吧！�Q�！

k-means��法�Q?/span>

for k = 1, … , K �?/span> r(k) ��Z��D中随机选取的一个点�Q?/span>

while 在聚�c?/span>Ck中有变化发生 do

形成聚类�Q?/span>

For k = 1, … , K do

Ck = { x ∈ D | d(rk,x) <= d(rj,x) �Ҏ(gu��)��?/span>j=1, … , K, j != k}�Q?/span>

End;

计算新聚�c�M��?j��)�?x��)

For k = 1, … , K do

Rk = Ck 内点的均值向�?/span>

End;

具体实现部分因�ؓ(f��)�?/span>Apache Commons Math的现成代码，�U�着Eric Raymond�?/span>TAOUP中的极大利用工具原则�Q�我没有�?/span>k-means的实玎ͼ�而是直接利用Apache Commons Math中的k-means plus plus代码来作��Z��子�?/span>

具体如何��试�q�一��法�Q�给��Z��(ji��n)��试代码如下�Q?br />

1private static void testKMeansPP(){
2
3        //ori is sample as n instances with m features, here n=8,m=2
4
5       int ori[][] = {{2,5},{6,4},{5,3},{2,2},{1,4},{5,2},{3,3},{2,3}};
6
7       int n = 8;
8
9       Collection<EuclideanIntegerPoint> col = new ArrayList<EuclideanIntegerPoint>();
10
11       for(int i=0;i<n;i++){
12
13           EuclideanIntegerPoint ec = new EuclideanIntegerPoint(ori[i]);
14
15           col.add(ec);
16
17       }
18
19       KMeansPlusPlusClusterer<EuclideanIntegerPoint> km = new KMeansPlusPlusClusterer<EuclideanIntegerPoint>(new Random(n));
20
21       List<Cluster<EuclideanIntegerPoint>> list = new ArrayList<Cluster<EuclideanIntegerPoint>>();
22
23       list = km.cluster(col, 3, 100);
24
25       output(list);
26
27    }
28
29private static void output(List<Cluster<EuclideanIntegerPoint>> list){
30
31       int ind = 1;
32
33       Iterator<Cluster<EuclideanIntegerPoint>> it = list.iterator();
34
35       while(it.hasNext()){
36
37           Cluster<EuclideanIntegerPoint> cl = it.next();
38
39           System.out.print("Cluster"+(ind++)+" :");
40
41           List<EuclideanIntegerPoint> li = cl.getPoints();
42
43           Iterator<EuclideanIntegerPoint> ii = li.iterator();
44
45           while(ii.hasNext()){
46
47              EuclideanIntegerPoint eip = ii.next();
48
49              System.out.print(eip+" ");
50
51           }
52
53           System.out.println();
54
55       }
56
57    }
58
59    /**
60
61    *@param args
62
63    */
64
65    public static void main(String[] args) {
66
67       //testHierachicalCluster();
68
69       testKMeansPP();
70
71       //testBSAS();
72
73       //testMBSAS();
74
75    }
76
77

3. ��结

划分聚类是聚�c�d��析中最常用的一�U�聚�cȝ��法了(ji��n)�Q�对于其研究的论文也是多如牛毛。感兴趣的朋友们完全可以通过阅读各种相关论文来感受这一��法的美妙。当然还要再�ơ感�?/span>Apache Commons Math对于诸多常用数学计算的实现。对于聚�c�d��析的�ȝ��学习(f��n)暂时到此告一�D�落�Q�最�q�要忙着写论文，�{�过�D�|��间有�I�可以考虑�l�箋聚类��法的研�I�学�?f��n)�?/span>

4. 参考文献及(qi��ng)推荐阅读

[1]PatternRecognitionThird Edition, Sergios Theodoridis, Konstantinos Koutroumbas

[2]模式识别�W�三�?/span>, Sergios Theodoridis, Konstantinos Koutroumbas�?/span>, 李晶�?/span>, 王爱�?/span>, 张广源等�?/span>

[3]数据挖掘原理, David Hand and et al, 张银奎等�?/span>

[4]http://commons.apache.org/math/

changedi 2010-05-11 21:07 发表评论

changedi — Fri, 19 Mar 2010 12:08:00 GMT

摘要: 1. 层次聚类层次聚类��法与之前所讲的��序聚类有很大不同，它不再��生单一聚类�Q�而是产生一个聚�c�d��ơ。说白了(ji��n)��是一��层�ơ树(w��i)。介�l�层�ơ聚�c�M��前，要先介绍一个概�?#8212;—嵌套聚类。讲的简单点�Q�聚�cȝ��嵌套与程序的嵌套一��P��一个聚�c�M��R1包含�?ji��n)另一个R2�Q�那�q�就是R2嵌套在R1中，或者说是R1嵌套�?ji��n)R2。具体说怎么��嵌套呢�Q�聚�c�R1... 阅读全文

changedi 2010-03-19 20:08 发表评论

changedi — Sat, 06 Mar 2010 07:02:00 GMT

1. ��序聚类

事实上，��?/span>n个对象，聚类�?/span>k个聚�c�M��q��g事本�w�是一�?/span>NP��N��题。熟�(zh��n)�组合数学应该知道这个问题的解事�W�二�c?/span>Stirling敎ͼ�(x��)。这样问题也��出��C��(ji��n)�Q�如�?/span>k值固定，那么计算�q�是可行的，如果k��g��固定�Q�就要对所有的可能k都进行计��，那运行时间可惌��知�?ji��n)。然而�ƈ不是所有的可行聚类�Ҏ(gu��)��都是合理的，所谓的合理�Q�我理解��是说接�q�你的聚�cȝ��标的�Q�之所以我们要分类�Q�必然有初始动机�Q�那么可以根据这个动机制定可行的聚类�Ҏ(gu��)��Q�这��P��复杂度的问题��回避了(ji��n)�?/span>

��序��法�Q?/span>sequential algorithms�Q�是一�U�非常简单的聚类��法�Q�大多数都至��将所有特征向量��用一�ơ或几次�Q�最后的�l�果依赖于向量参与算法的��序。这�U�聚�cȝ��法一般是不预先知道聚�c�L��?/span>k的，但有可能�l�出一个聚�c�L��上界q。本文将主要介绍基本��序��法�Q?/span>Basic Sequential Algorithmic Scheme,BSAS�Q�和其几个变�U�，�q�给��Z��码实现�?/span>

首先�?/span>BSAS�Q�这个算法方案需要用户定义参敎ͼ�(x��)不相似性阈�?#952;和允许的最大聚�c�L��q。算法的基本思想�Q�由于要考虑每个新向量，�Ҏ(gu��)��向量到已有聚�cȝ��距离�Q�将它分配到一个已有的聚类中，或者一个新生成的聚�c�M��。算法的伪码描述如下�Q?/span>

1. m=1 /*{聚类数量}*/

2. C_m={x₁}

3. For i=2 to N

4. �?/span>C_k: d(x_i,C_k)=min₁_£j_£md(x_i,C_j)

5. If (d(x_i,C_k)>Θ) AND (m<q) then

6. m=m+1

7. C_m={x_i}

8. Else

9. C_k=C_kÈ{x_i}

10. 如果需要，更新向量表达

11. End {if}

12. End {for}

�׃��面的描述可以看出BSAS��法对向量顺序非�怾�赖，无论是聚�c�L��量还是聚�c�L��w�，不同的向量顺序会(x��)��D��完全不同的聚�cȝ��果。另一个媄(ji��ng)响聚�cȝ��法结果的重要因素是阈�?#952;的选择�Q�这个值直接媄(ji��ng)响最�l�聚�cȝ��数量�Q�如�?#952;太小�Q�就�?x��)生成很多不必要的聚�c�，因�ؓ(f��)很多情况下向量与聚类的合�q�条仉��受到θ的限�Ӟ��而如�?#952;太大�Q�则聚类数量又会(x��)不够�?/span>BSAS比较适合致密聚类�Q�其�Ҏ(gu��)��据集�q�行一�ơ扫描，每次�q�代中计��当前向量与聚类间的距离�Q�因为最后的聚类�?/span>m被认��于N�Q�故BSAS的时间复杂度�?/span>O(N)�?/span>

�׃��BSAS��法依赖�?/span>q�Q�因此这里介�l�一�U�自动估计聚�c�L��q的简单方法，该方法也适用于其他的聚类��法�Q��o(h��)BSAS(Θ)为具有给定不�怼�阈�?#952;�?/span>BSAS��法�?/span>

1. For Θ=a to b step c

2. ��法BSAS(Θ)执行s��?/span>�Q�每一�ơ都使用不同的顺序表�C�数据�?/span>

3. 估计聚类敎ͼ�m_Θ作�ؓ(f��)�?/span>s��?/span>BSAS(Θ)��法得来的最常出现的聚类数�?/span>

4. Next Θ

其中a�?/span>b是数据集的所有向量对的最��和最大不�怼��U�别�Q?/span>c的选择直接�?/span>d(x,C)的媄(ji��ng)响�?/span>

2. ��法实现

package util.clustering;

import java.util.ArrayList;
import java.util.Collection;
import java.util.Iterator;
import java.util.List;

/** *//**
* @author Jia Yu
*
*/
public class BSAS <T extends Clusterable<T>> {

    /** *//**
     * Basic Sequential Algorithmic Scheme
     * 适用于致密聚�c?br />      */

    public BSAS() {
    }

    /** *//**
     * Basic Sequential Algorithmic Scheme
     * 考虑��h��I�间中每个向量，�Ҏ(gu��)��向量到已有的聚类中心(j��)的距��，��它分配��C��个已有聚�c�M��Q�或者一个新生成的聚�c�M��?br />      * time complexity is O(N)
     * BSAS��法�Ҏ(gu��)��个数据集只进行一�ơ扫描�?br />      * @param points 待聚�cȝ��向量
     * @param Phi 用户定义的不�怼�性阈�?br />      * @param q 用户定义的允许的最大聚�c�L��
     * @return
     */
    public List<Cluster<T>> cluster(final Collection<T> points,final double Phi,final int q){
        int m = 0;
        int n = points.size();
        double disOfXandCj = 0;
        double disOfXandCk;
        List<T> ptList = new ArrayList<T>(points);
        Cluster<T> C = new Cluster<T>(ptList.get(m));
        C.addPoint(ptList.get(m));
        Cluster<T> Ck = C;
        List<Cluster<T> > cList = new ArrayList<Cluster<T> >();
        cList.add(C);
        for(int i=1;i<n;i++){
            disOfXandCk = Double.MAX_VALUE;
            Iterator<Cluster<T> > cListIt = cList.iterator();
            while(cListIt.hasNext()){
                Cluster<T> Cj = cListIt.next();
                disOfXandCj = getDisOfPointAndCluster(ptList.get(i),Cj);
                if(disOfXandCk > disOfXandCj){
                    disOfXandCk = disOfXandCj;
                    Ck = Cj;
                }
            }
            if(disOfXandCk > Phi && m < q){            //不满��x��Ӟ��则��生新的聚�c?/span>
                m++;
                Cluster<T> cm = new Cluster<T>(ptList.get(i));
                cm.addPoint(ptList.get(i));
                cList.add(cm);
            }
            else{            //满��条�g的将点加入已有聚�c�，�q�更新聚�c�M��?/span>
                if(cList.contains(Ck))
                    cList.remove(Ck);
                Ck.addPoint(ptList.get(i));
                final T newCenter = Ck.getCenter().centroidOf(Ck.getPoints());
                Cluster<T> tempCluster = new Cluster<T>(newCenter);
                for(int j=0;j<Ck.getPoints().size();j++){
                    tempCluster.addPoint(Ck.getPoints().get(j));
                }
                cList.add(tempCluster);
            }
        }
        return cList;
    }

    /** *//**
     * 选择不同的测度，有不同的��法�?br />      * �q�里默认dis(x,C)为点到聚�c�M��?j��)的距离�?br />      */
    private double getDisOfPointAndCluster(T t, Cluster<T> cj) {
        return t.distanceFrom(cj.getCenter());
    }

}

3. �E�序框架

我的聚类�E�序主要扩展�?/span>Apache Commons Math开源框�Ӟ��下面是其�l�构�Q�我��单加入了(ji��n)Clusterer�c�M��为抽象模板类�Q��用模板方法模式修改了(ji��n)框架�Q��ؓ(f��)后箋加入的例�?/span>BSAS��法提供模板�?br />

4. ��结

��序��法��单易实现�Q�对于学�?f��n)聚�c�L��说是入门的最好选择�Q�考虑到篇�q�的限制�Q�不能将代码全部发上来，如果有需要可以向我烦(ch��)要，Apache Commons Math框架可以�?/span>Apache的网站上下蝲。另外还有很多介�l�不够详�l�，感兴��的朋友可以�l�箋深入研究BSAS的扩展�?/span>

5. 参考文献及(qi��ng)推荐阅读

[1]Pattern Recognition Third Edition, Sergios Theodoridis, Konstantinos Koutroumbas

[2]模式识别�W�三�?/span>, Sergios Theodoridis, Konstantinos Koutroumbas�?/span>, 李晶�?/span>, 王爱�?/span>, 张广源等�?/span>

changedi 2010-03-06 15:02 发表评论

changedi — Sun, 17 Jan 2010 05:10:00 GMT

1. ��度定义

“数学上，��度(Measure)是一个函敎ͼ�它对一个给定集合的某些子集指定一个数�Q�这个数可以比作大小、体�U�、概率等�{�。传�l�的�U�分是在区间上进行的�Q�后来�h们希望把�U�分推广��C�Q意的集合上，��发展出��度的概念，它在数学分析和概率论有重要的��C��” —�?/span>wikipedia

聚类之前一定要定义好向量之间的�怼��E�度——即�q�邻��度。在聚类�q�程中我们��用的��度�Q�范围要更广泛，首先定义向量之间的测度，接着��是集合与向量，集合之间的测度�?/span>

对于X上的不相似测�?/strong>(Dissimilarity Measure, DM) d 是一个函敎ͼ�(x��) 其中R是实数集合，如果d有以下的属性：(x��)

     �Q?/span>1.1�Q?/span>

               �Q?/span>1.2�Q?/span>

               �Q?/span>1.3�Q?/span>

如果又满��?/span>

                 �Q?/span>1.4�Q?/span>

                �Q?/span>1.5�Q?/span>

那么d被称为度�?/span>DM。其中的公式�Q?/span>1.5�Q�也叫三角不�{�式。稍�E�解释一下（其实太好理解�?ji��n)�?j��)�Q�不�怼�性测度其实就像我们说的距��M��P��两个向量代表两个对象好了(ji��n)。公�?/span>1.2定义�Q�向量）(j��)对象自己和自��q��距离�?/span>d₀�Q�公�?/span>1.1说明�?ji��n)�Q意两个对象之间的距离要小于正无穷却大于自己和自己的距��（你和别�h的距��d��于你和自��q��距离�Q�这不废话吗�Q�＿�Q�）(j��)�Q�公�?/span>1.3说明距离的交互性；公式1.4不解释了(ji��n)�Q�公�?/span>1.5��是三角不等式（初中水��^�Q��?/span>

同理�怼�性测�?/strong>(Similarity Measure, SM)定义�?img style="width: 128px; height: 29px" height="29" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/1.0.JPG" width="128" border="0" />满��Q?/span>

         �Q?/span>1.6�Q?/span>

        �Q?/span>1.7�Q?/span>

         �Q?/span>1.8�Q?/span>

如果又满��?/span>

          �Q?/span>1.9�Q?/span>

           �Q?/span>1.10�Q?/span>

��把s叫做度量SM。具体同DM�Q�各公式的表达一目了(ji��n)然哦~~~

从定义和字面上我们都可以看出二者的不同�Q�在表达�怼�性时两者都可以�Q�只不过度量的角度不同，对于判别�怼��Q?/span>DM��大说明��不�怼��Q�越��则��相��|��?/span>SM却正好相反，因此我们也可以联惻I��DM�?/span>SM可以利用�q�种对立关系来定义。�D例来��_(d��)��如果d是一�?/span>DM�Q�那�?/span>s=1/d��是一�?/span>SM�?/span>

2. 向量之间的近��L��?/span>

上面的定义只是一个宏观的概括�Q�那么具体的向量之间的测度如何计��呢�Q�下面将详细的介�l��?/span>

首先对于实向量的不相似测度，实际应用中最通用的就�?strong>加权l_p度量�?ji��n)�?x��)

          �Q?/span>2.1�Q?/span>

其中�?/span>x_i�?/span>y_i分别是向�?/span>x�?/span>y中的�W?/span>i个��|��w_i是第i个权重系敎ͼ�l是向量的�l�数�Q�以下公式定义同�Q�。而我们比较感兴趣的就是当p=1�Ӟ��该度量就是加�?/span>Manhattan范数�Q�而当p=2时就是加权欧几里得范敎ͼ��?/span>p=∞时就�?/span>max₁_£_i_£_l w_i|x_i-y_i|�?ji��n)。根据这�?/span>DM�Q�我们定�?/span>SM�?/span>b_max- d_p(x,y)�?/span>

另外�q�有一些其他的定义�Ҏ(gu��)��Q�比�?/span>

            �Q?/span>2.2�Q?/span>

          �Q?/span>2.3�Q?/span>

其他懒得列出�?ji��n)，先查阅资料，�q�里不详�q�C��(ji��n)�?/span>

对于实向量的�怼�性测度，实际中常用的有：(x��)

内积�Q?img height="48" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/2.4.JPG" width="208" border="0" />          �Q?/span>2.4�Q?/span>

Tanimoto��度�Q?img height="57" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/2.5.JPG" width="261" border="0" />           �Q?/span>2.5�Q?/span>

其他�Q?img height="50" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/2.6.JPG" width="229" border="0" />           �Q?/span>2.6�Q?/span>

------------------------------------------------take a nap------------------------------------------------------------

对于��L��值的向量�Q�首先必��要搞清楚一个概念，�q�里在《模式识别》的中文译作中我感觉��译的�ƈ不好理解�Q�所以这里展开说明一下，那就是一个叫做相依表(contingency table)的概��c(di��n)��对于一个向�?/span>x�Q�其元素值属于有限集F={0,1,…,k-1}�Q�其�?/span>k是正整数。��o(h��)A(x,y)=[a_ij], i, j=0,1,…,k-1是一�?/span>k阶方阵，其中元素a_ij代表�?/span>x中所�?/span>i值所在的位置�?/span>y的同样位�|�有j值的个数。附原文�Q?/span>the number of places where x has the i-th symbol and y has the j-th symbol。�D例来说吧�Q?/span>k=3�Q�且x=[0,1,2,1,2,1]�Q?/span>y=[1,0,2,1,0,1]�Q�那�?/span>A(x,y) = [0 1 0, 1 2 0, 1 0 1]。以�W�一�?/span>0(a₀₀)��Z��说明�Q?/span>0�?/span>A中的位置军_��i=0�Q?/span>j=0�Q�在x�?/span>0所在的位置是第一个位�|�，�?/span>y�?/span>0所在的位置为第二个和第五个�Q�两个向量中没有相同位置上的相同0元素�Q�因�?/span>A中第一个元�?/span>a₀₀�?/span>0�Q��?/span>A中第二个�?/span>1(a₀₁)�Q�所�?/span>i=0�Q?/span>j=1�Q�在x�?/span>0所在的位置是第一个，�?/span>y�?/span>1所在的位置为第一、四、六个，因此有一个相同，所�?/span>a₀₁=1�?/span>

关于计算矩阵A�q�里附加java代码实现�Q�可参考：(x��)

1/** *//**
2     *
3     * @param k
4     *            the number of finite set F
5     * @param x
6     *            the vector x belongs to F^l
7     * @param y
8     *            the vector y belongs to F^l
9     * @return the contingency table A
10     * @author $Jia Yu
11     */
12    public Integer[][] calContingencyTable(Integer k, Vector<Integer> x,
13            Vector<Integer> y) {
14        if (x.size() != y.size())
15            throw new IllegalArgumentException(
16                    "The two vectors are not the same size!");
17        Integer[][] A = new Integer[k][k];
18        Integer count_ij;
19        for (int i = 0; i < k; i++) {
20            for (int j = 0; j < k; j++) {
21                count_ij = 0;
22                for (int xi = 0; xi < x.size(); xi++) {
23                    if (x.elementAt(xi).equals(i) && y.elementAt(xi).equals(j))
24                        count_ij++;
25                }
26                A[i][j] = count_ij;
27            }
28        }
29        return A;
30    }

有了(ji��n)�怾�表的定义�Q�可以定义离散向量之间的不相似性测度了(ji��n)�?/span>

汉明距离�Q?img height="58" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/2.7.JPG" width="150" border="0" />          �Q?/span>2.7�Q?/span>

L1距离�Q?img height="48" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/2.8.JPG" width="176" border="0" />              �Q?/span>2.8�Q?/span>

同样�Q�相似性测度有

Tanimoto��度�Q?img height="93" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/2.9.JPG" width="225" border="0" />             �Q?/span>2.9�Q?/span>

其中�?/span>n_x( n_y)表示x(y)中非零元素的个数�?/span>

书本往往教给我们的是基础而不是应用，�q�些基础知识在实际应用中才会(x��)得到更多的改�q�和变化。也许我们不�?x��)简单的在聚�c�M��应用�q�些��度概念�Q�但是复杂的�l�合都是来源于基��。因此，�Ҏ(gu��)��度的基础概念一定要牢牢把握。在前一阶段做图像分割时�Q�聚�cȝ��法执行的前提之一��度�Q�我��做�q�多个实验，L1�?/span>L2范数�Q?/span>Tanimoto��度�{�。当然不同的囑փ�特征有不同的计算距离�Ҏ(gu��)��Q��M��实际的经验告诉我�Q�基��扎实后，在应用�v来是相当的顺手啊~~~�Q�最��L(f��ng)��不会(x��)被复杂公式吓刎ͼ�(j��)

3. �Ҏ(gu��)��情况处理

       考虑到实例向量的特征�c�d��往往是复杂�؜合的�Q�这�U�情况下�Q�如何计��近��L��度呢�Q�一些偷懒的做法��是��所有值都看作是实值类型，把�؜合向量当作实向量来处理。但是现实��用中�Q�这样做的效果往往差强人意。考虑��实值类型�{换成��L��c�d��Q�这��是著名的离散化�?ji��n)，特征的离散化操作时特征或属性过�?/span>(filter)的一个重要的斚w��。当然我最推荐的还是基于自己开发的应用场景�Q�设计相关的�q�邻��度。这样可能通用性比较差�Q�但是如果是问题驱动的话�Q�或者目标驱动，那么�q�个作�ؓ(f��)一�?/span>solution也不�׃��良性。当然引入模�p�测度的概念也是一�U�解��x��法，�q�里��׃��l�说�?ji��n)，具体应用可以参看有关模糊和不��定性的文章。另外一炚w��要说明就是实例向量中部分特征丢失的情况，对于丢失数据�Q�如果我们知道数据的分布�Q�那么合理假设是一个替代方案，但是如果��Z��(ji��n)省事�Q�常用的做法是直接丢弃该实例向量�Q�或者好点的做法是取所有实例的�q�_��数据作�ؓ(f��)该维度的替代数据�?/span>

4. 点与集合之间的测�?/span>

       随着聚类�q�程的不断进行，层次逐渐深入�Q�聚�c�d��l�不仅仅是判断点与点之间的相似程度了(ji��n)�Q�点与集合的�怼��E�度也需要计��。而如何定义向�?/span>x和聚�c?/span>C之间的近��L��，从而判断是否将x归类�?/span>C。以下三个定义经常用到�?/span>

最大近��d��?/span>Max proximity function�Q?/span>           �Q?/span>4.1�Q?/span>

最��近��d��?/span>Min proximity function�Q?img height="30" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/4.2.JPG" width="197" border="0" />           �Q?/span>4.2�Q?/span>

�q�_��q�邻函数Average proximity function�Q?img height="49" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/4.3.JPG" width="193" border="0" />       �Q?/span>4.3�Q?/span>

其中n_c是集�?/span>C的势�?/span>

       可以看到�Q�这��L(f��ng)��定义在概�느�论层�ơ上仍旧��点视作点，��聚�c�视作集合。另一�U�情况则是将聚类视作一个点�Q�因为点与点之间的近��L��度已�l�可以计��，那么��集合视��Z��个点�Q�就��这个问题归�U�到�?ji��n)点与点之间的问题�?ji��n)。对聚类�q�行表达�Q�主要有以下几种表达�Q?/span>

1�Q?span style="font: 7pt 'Times New Roman'">    点表达：(x��)��聚�c�视作一个点�Q�可以是均值点(mean vector)�Q�也可以是均��g��?/span>(mean center)�Q�也可以是中��g��?/span>(median center)。关于这几个概念和公式，��M��的统计教材里都有涉猎�Q�我��׃��一一枚�D�?ji��n)。（主要贴公式真的很累，怀�?/span>Tex�Q?/span>

2�Q?span style="font: 7pt 'Times New Roman'">    ��^面表达：(x��)�U�性聚�c�M��常用。不表。有兴趣者去查资料�?/span>

3�Q?span style="font: 7pt 'Times New Roman'">    ��球面表达：(x��)球�Ş聚类中常用。同上�?/span>

一切的学习(f��n)都�ؓ(f��)应用�Q�根据实际应用的不同�Q�我们在定义�q�种点与集合之间��度时候也有很大的灉|��性�?/span>

5. 集合与集合之间的��度

同样的，对于集合与集合的��度�Q�可以同点与集合的测度类伹{��只要记住一点，那就是集合与集合间的�q�邻��度是徏立在点与点之间的��度的基��上的。所以近��L��度的基础在点与点之间。当然聚�cȝ��果的优化是一个反复试验的�q�程�Q�其中也要考虑领域专家的意见�?/span>

6. ��结

对于�q�邻��度的学�?f��n)，乍一看像是纯数学知识的学�?f��n)，其实则是��?gu��)��们开始聚�cȝ��法研�I�之前的一个夯实基��的复�?f��n)过�E��?/span>

7. 参考文献及(qi��ng)推荐阅读

[1]Pattern Recognition Third Edition, Sergios Theodoridis, Konstantinos Koutroumbas

[2] http://zh.wikipedia.org/wiki/%E6%B5%8B%E5%BA%A6%E8%AE%BA

[3]模式识别�W�三�?/span>, Sergios Theodoridis, Konstantinos Koutroumbas�?/span>, 李晶�?/span>, 王爱�?/span>, 张广源等�?/span>

changedi 2010-01-17 13:10 发表评论

聚类��法学习(f��n)�W�记�Q�一�Q�——基��

changedi — Mon, 11 Jan 2010 02:39:00 GMT

0. 引子

传说�Q?#8220;聚类是�h�c�L��原始的精��活动，用于处理他们每天接收到的大量信息”。�ؓ(f��)方便�q�大同学学习(f��n)使用�Q�将我学�?f��n)聚�c�L��的笔记整理发布共享�?/span>

1. 聚类定义

“聚类是把�怼�的对象通过�?r��n)态分�cȝ��Ҏ(gu��)��分成不同的组别或者更多的子集�Q?/span>subset�Q?/span>,�q�样让在同一个子集中的成员对象都有相似的一些属性�?#8221;                                                          —�?/span>wikipedia

“聚类分析指将物理或抽象对象的集合分组成�ؓ(f��)��q��似的对象�l�成的多个类的分析过�E�。它是一�U�重要的人类行�ؓ(f��)。聚�c�L��数据分�c�d��不同的类或者簇�q�样的一个过�E�，所以同一个簇中的对象有很大的�怼�性，而不同簇间的对象有很大的相异性�?/span>”                          ——百度百�U?/span>

说白�?ji��n)，聚类�Q?/span>clustering�Q�是完全可以按字面意思来理解的——将相同、相伹{��相�q�、相关的对象实例聚成一�cȝ��q�程。简单理解，如果一个数据集合包�?/span>N个实例，�Ҏ(gu��)��某种准则可以��这N个实例划分�ؓ(f��)m个类别，每个�c�d��中的实例都是相关的，而不同类别之间是区别的也��是不相关的�Q�这个过�E�就叫聚�c�M��(ji��n)�?/span>

形式化一点，�?img style="width: 162px; height: 22px" height="22" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/abc.JPG" width="162" border="0" />�Q�其中的x都是向量�Q�一�?/span>X�?/span>m聚类R��?/span>X分割�?/span>m个集�?/span>C₁, C₂,…,C_m�Q��其满��下面三个条�Ӟ��(x��)

�Q?/span>1�Q?img height="22" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/abcd.JPG" width="162" border="0" />

�Q?/span>2�Q?img height="37" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/abcde.JPG" width="70" border="0" />

�Q?/span>3�Q?img height="28" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/ff.JPG" width="275" border="0" />

满��上述条�g的同�Ӟ��在聚�c?/span>C_i中的向量彼此�怼��Q�而与其他�c�M��的向量不�怼��?/span>

但是�q�种定义也只是定义了(ji��n)��定性的聚类�Q�也叫做��聚�c?/span>(hard clustering)�Q�每个实�?/span>x都确定的属于某个聚类。而不��定性聚�c�，也需要定义，�q�就引出�?ji��n)模�p�聚�c?/span>(fuzzy clustering)的概念了(ji��n)。模�p�聚�c�M��Q�每个实例向�?/span>x以一定的隶属度属于某个聚�c�R��同上面的设�|�，X的模�p�聚�c�L��?/span>X分成m个类�Q�由m个函�?/span>u_j表示�Q�其中满��I��(x��)

�Q?/span>1�Q?img height="28" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/fff.JPG" width="214" border="0" />

�Q?/span>2�Q?img height="44" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/de.JPG" width="214" border="0" />

�Q?/span>3�Q?img height="44" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/def.JPG" width="240" border="0" />

其中�q�个隶属度函�?img height="23" alt="" src="http://www.tkk7.com/images/blogjava_net/changedi/ew.JPG" width="45" border="0" />��接�q?/span>1�Q�说�?/span>x_i��可能属�?/span>C_i�Q�反之如果越接近0�Q�则说明��不可能属于C_i�?/span>

2. 聚类�q�程

当我们知道聚�c�L��什么时�Q�我们下一步想知道的应该是怎么�q�行聚类。这一点，教材上做�?ji��n)详�l�介�l�，补充一点自��q��解：(x��)

1�Q�特征选择(feature selection)�Q�就像其他分�c�M�Q务一��P��特征往往是一切活动的基础�Q�如何选取特征来尽可能的表��N��要分�cȝ��信息是一个重要问题。表达性强的特征将很媄(ji��ng)响聚�c�L��果。这点在以后的实验中我会(x��)展示�?/span>

2�Q�近��L��?/span>(proximity measure)�Q�当选定�?ji��n)实例向量的特征表达后，如何判断两个实例向量�怼�呢？�q�个问题是非常关键的一个问题，在聚�c�过�E�中也有着军_��性的意义�Q�因��c�L��质在区分�怼�与不�怼��Q�而近��L��度就是对�q�种�怼�性的一�U�定义�?/span>

3�Q�聚�c�d��?/span>(clustering criterion)�Q�定义了(ji��n)�怼�性还不够�Q�结合近��L��度，如何判断�怼�才是关键。直观理解聚�c�d��则这个概念就是何时聚�c�，何时不聚�cȝ��聚类条�g。当我们使用聚类��法�q�行计算�Ӟ��如何聚类是算法关�?j��)的�Q�而聚与否需要一个标准，聚类准则��是�q�个标准。（话说标准�q�东西一拿出来，够吓��Z��(ji��n)�?/span>^_^�Q?/span>

4�Q�聚�cȝ��?/span>(clustering algorithm)�Q�这个东西不用细说了(ji��n)吧，整个学习(f��n)的重中之重，核心(j��)的东西这里不�Ԍ��以后�?x��)细��_(d��)��单开个头——利用近��L��度和聚类准则开始聚�cȝ��q�程�?/span>

5�Q�结果验�?/span>(validation of the results)�Q�其实对�?/span>PR的作者提�?gu��)��个过�E�也攑ֈ�聚类��d��程中，我觉得有点冗余，因�ؓ(f��)对于验证��法的正��性这事应该放到算法层面吧�Q�可以把4�Q�和5�Q�结合至一层。因为算法正��和有穷的验证本�w�就是算法的�Ҏ(gu��)��嘛。（谁设计了(ji��n)一个算法不得证明啊�Q?/span>

6�Q?/span>(interpretation of the results)�Q�中文版�?/span>PR上翻译�ؓ(f��)�l�果判定�Q�而我感觉字面意思就是结果解释。（聚类最�l�会(x��)��数据集分成若干个类�Q�做事前要有原则�Q�做事后要有解释�Q�这个就是解释了(ji��n)。自圆其说可能是比较好的�?/span>^_^�Q?/span>

整个聚类��d��详细的东西会(x��)在以后详�l�介�l�，�q�里先细说一下聚�c�d��则（虽然我感觉在上面我说的已�l�够�l�了(ji��n)�Q�。�D例吧�Q�比如，有这样一个数据集X�Q�包含了(ji��n)四名同学的基本信息和数学成�W�?/span>

姓名

�q��

班��

数学成�W

张三

1

2

99

李四

2

2

95

张飞

3

1

59

赵云

2

1

90

聚类准则��是一个分�c�L��准，对于�C�Z��中这样一个数据集合，如何聚类呢。当然聚�cȝ��可能情况有很多。比如，如果我们按照�q��是否为大�?/span>1来分�c�，那么数据�?/span>X分�ؓ(f��)两类�Q?/span>{张三}�Q?/span>{李四�Q�张飞，赵云}�Q�如果按照班�U�不同来分，分�ؓ(f��)两类�Q?/span>{张三�Q�李�?/span>}�Q?/span>{张飞�Q��n�?/span>}�Q�如果按照成�l�是否及(qi��ng)格来分（假设�?qi��ng)格�?/span>60分）(j��)�Q�分两类�Q?/span>{张三�Q�李四，赵云}�Q?/span>{张飞}。当然聚�c�d��则的设计往往是复杂的�Q�就看你��x��么划分�?ji��n)。按照对分类思想的几何理解，数据集相当于��h��I�间�Q�数据实例的特征敎ͼ�本例共有4个特�?/span>[姓名�Q�年�U�，班��Q�数学成�l?/span>]�Q�相当于�I�间�l�度�Q�而实例向量对应到�I�间中的一个点。那么聚�c�d��则就应该是那些神奇的��^面（对应有数学函数表辑ּ��Q�我个�h认�ؓ(f��)�q�些函数��q��同于聚类准则�Q�，�q�些��^面将数据“完美�?#8221;分离开�?ji��n)�?/span>

3. 聚类特征�c�d��

聚类时用到的特征如何区分呢，有什么类型要求？聚类的特征按照域划分�Q�可以分��l�的特征和离散特征。其中连�l�特征对应的定义域是数据�I�间R的连�l�子�I�间�Q�而离散特征对应的是离散子集，另外如果��L��特征只包含两个特征��|��那么�q�个��L��特征又叫二值特征�?/span>

       �Ҏ(gu��)��特征取值的相对意义又可以将特征分�ؓ(f��)以下四种�Q�标量的(Nominal)�Q�顺序的(Ordinal)�Q�区间尺度的(Interval-scaled)以及(qi��ng)比率��度�?/span>(Ratio-scaled)。其中，标量特征用于�~�码一�cȝ��征的可能状态，比如人的性别�Q�编码�ؓ(f��)男和奻I��天气状况�~�码为阴、晴和雨�{�。顺序特征同标量特征�c�M��Q�同��h��一�p�d��状态的�~�码�Q�只是对�q�些�~�码�E�加�U�束�Q�即�~�码��序是有意义的，比如对一道菜�Q�它的特征有{很难吃，隑֐��Q�一般，好吃�Q�美�?/span>}几个值来定义状态，但是�q�些状态是有顺序意义的。这�cȝ��征我认�ؓ(f��)��是标量特征的一个特定子集，或者是一个加�U�束的标量特征。区间尺度特征表�C��特征数��g��间的区间有意义而数值的比率无意义，�l�典例子��是温度�Q?/span>A地的温度�Q?/span>20℃）(j��)�?/span>B圎ͼ�15℃）(j��)�?/span>5度，�q�里的区间差值是有意义的�Q�但你不能说A地比B地热1/3�Q�这是无意义的。比率特征与此相反，其比率是有意义的�Q�经�怾�子是重量�Q?/span>C�?/span>100g�Q?/span>D�?/span>50g�Q�那�?/span>C�?/span>D�?/span>2倍，�q�是有意义的。（当然�?/span>C�?/span>D�?/span>50g也是可以的，因此可以认�ؓ(f��)区间��度是比率尺度的一个真子集�Q��?/span>

       在常见应用中�Q�包括我们��^日关�?j��)的�~�程实现中，一般只定义nominal特征�?/span>numeric特征�Q�其�?/span>nominal可以�?/span>string来表�C�，�?/span>numeric可以�?/span>number来表�C�。（weka中的attribute的特征类型就是这么定义的�Q?/span>

4. 聚类分析的应�?/span>

       说了(ji��n)�q�么多基本概念，最实际的话题莫�q�于应用�?ji��n)。就像�ؓ(f��)聚类做广告一��P��到底我们可以在哪里应用它呢。就像引�a�里我提到的传说一��P��分类作�ؓ(f��)人类识别对象的一个基本活动大概与人类的意识共同存在着�Q�也可以说�h�c�L��能认识的本质�z�d��之一��是分类。而研�I�者对分类的研�I�又��分�c�d��分�ؓ(f��)有监督与无监督，其中聚类��是无监督分�cȝ��最常用�Ҏ(gu��)��也是�l�对代表性方法。设想一下，对于一�l�数据，或者一堆信息，计算机可以自动地��其分�ؓ(f��)若干�c�，那这对于辅助人类��来说�l�对是必要的也是有意义的。所以聚�cȝ��一个核�?j��)应用就是数据挖掘与模式识别。另外各个科学领域只要涉�?qi��ng)到分类的�Q务，大家无不联想到聚�c?/span>~~~�Q�话说我�W�一�ơ正式地解除聚类�Q�还是在23教学楼听一个貌似是自动化的教授讲的信息化课�E�）(j��)。而学者比较权威的分类��聚�cȝ��应用分�ؓ(f��)四个基本的方向：(x��)1�Q�数据去冗，卛_��量数据中的冗余信息去除�?/span>2�Q�假说生成，��Z��(ji��n)推导出数据的某些性质�Q�我们可以对数据�q�行聚类分析�?/span>3�Q�假说检验，其实��是通过聚类分析来验证某个决�{�的风险�E�度�?/span>4�Q�基于分�l�的预测�Q�同所有预��Q务一��P��已有的数据都聚�c�d��c�d��Q�新的未来数据可以用同样的规则进行识别预��其所属分�c�R�?/span>

       聚类的应用非常广泛，如果按科目枚举，我是懒得�|�列�?ji��n)。只要知道了(ji��n)其原理和目标�Q�其应用领域也就自然理解�?ji��n)�?/span>

5. ��结

聚类的基本概念就是这么些�?ji��n)，关于聚类的学习(f��n)和研究已经历经几十�q�_(d��)��可以�?ji��n)幸的一�Ҏ(gu��)��q�里的学�?f��n)我们可以站在很多巨人的肩膀上，而如何去改进创新扩展应用�Q�那��是我们未来的目的，“工欲善其事，必先利其�?#8221;�Q�这里聚�c�d��是我们的“�?#8221;�?ji��n)�?/span>

6. 参考文献及(qi��ng)推荐阅读

[1]Pattern Recognition Third Edition, Sergios Theodoridis, Konstantinos Koutroumbas

[2] http://baike.baidu.com/view/903740.htm?fr=ala0_1_1

[3] http://zh.wikipedia.org/zh-cn/%E6%95%B0%E6%8D%AE%E8%81%9A%E7%B1%BB

[4]数据挖掘概念与技�?/span>(Data mining concepts and techniques) Jiawei Han, Micheline Kamber�?/span>范明, 孟小峰译

[5]模式识别�W�三�?/span>, Sergios Theodoridis, Konstantinos Koutroumbas�?/span>, 李晶�?/span>, 王爱�?/span>, 张广源等�?/span>

[6]数据挖掘��D��(Introduction to data mining) Pang-Ning Tan, Michael Steinbach, Vipin Kumar�?/span>范明, 范宏�?/span>�{�译

[7]数据挖掘实用机器学习(f��n)技�?/span> (Data mining practical machine learning tools and techniques) Ian H.Witten, Eibe Frank�?/span>董琳�{�译

文章转蝲��h��明~~~

changedi 2010-01-11 10:39 发表评论

姓名	�q��	班��	数学成�W
张三	1	2	99
李四	2	2	95
张飞	3	1	59
赵云	2	1	90

亚洲人成图片网站,亚洲av片在线观看,色天使亚洲综合一区二区

1. 划分聚类

2. ���法实现

3. ���结

4. 参考文献及(qi��ng)推荐阅读

1. ��序聚类

2. ���法实现

3. �E�序框架

4. ���结

5. 参考文献及(qi��ng)推荐阅读

1. ���度定义

2. 向量之间的近��L���?/span>

3. �Ҏ(gu��)��情况处理

4. 点与集合之间的测�?/span>

5. 集合与集合之间的���度

6. ���结

7. 参考文献及(qi��ng)推荐阅读

聚类���法学习(f��n)�W�记�Q�一�Q�——基���

0. 引子

1. 聚类定义

2. 聚类�q�程

3. 聚类特征�c�d��

4. 聚类分析的应�?/span>

5. ���结

6. 参考文献及(qi��ng)推荐阅读

2. ��法实现

3. ��结

2. ��法实现

4. ��结

1. ��度定义

2. 向量之间的近��L��?/span>

5. 集合与集合之间的��度

6. ��结

聚类��法学习(f��n)�W�记�Q�一�Q�——基��

5. ��结