Visualizing Clustering 是指將數據作某種處理之后, 作出的圖像可以由人直接分辨出分類模式。
最最簡單的方法,就是對原始數據直接畫出直方圖(histograms),當然只適用于單變量和兩變量的情況。有時直接做直方圖并不能達到要求(其實大部分時候都這樣),對這個方法的修正是使用核密度估算來取代原始的密度估算方法(即落到某特征數值區間的事例個數)。核密度估算使用核函數計算各個事例對特性空間里各個點的貢獻加和,然后使用此加和作圖。對于一維的情況常用的核函數是:矩形,三角形和高斯函數。特性空間上各點的密度值是:
f(x)=frac{1}{nh} sum_{i=1}^{n}K(frac{x-X_i}{h})
而對于二維的情況上面的公式則變成:
f(x)=frac{1}{nh_xh_y}sum_{i=1}{n}K(frac{x-X_i}{h_x},frac{y-Y_i}{h_y})
?
而對于二維以上的情況,就不能直接使用直方圖的方法了。簡單的,可以使用散點圖(scatterplot),即把沒兩個變量組成一對,然后分別畫出它們的分布圖 。大多數情況這種做法根本起不到效果,你看到的是一對亂七八糟沒有明顯結構信息的圖表。所以替代方法出現了。概括的說,就是“降維”。principal components analysis(PCA) 方法是以產生一組相互之間無關而又能盡量保持各數據點的偏差值的新變量。然后從中取出比較重要的前幾個。以這些變量作散點圖。這方面我還沒弄清楚,實際操作一次可能會好一些。
PCA的更一般的方法是projection pursuit,因為實際上PCA就是一種通過投影降維的方法。Projection Pursuit一般需要將原始的p維數據投影到一維或二維空間里。如果要投影到一維上去,那么需要找出一個適合的投影向量,如果是二維,則需要一個投影平面。衡量投影的效果,需要一個索引函數(index function) ,在PCA里使用的是樣本的偏差。選定索引函數后,接下來要做的就是如何選定合適的投影向量(平面)而使索引函數達到最優(大/小)。所以實際的聚類效果取決于:1.索引函數的選擇;2.優化算法。
最后一種方法是multidimensional scaling(MDS,多維度的縮放),狹義的定義是尋找低維空間,在該空間里的點一一對應于原始的數據點,而各點之間的距離(一般用歐氏距離),盡量跟原空間里各點間的相異程度一致。適用于原始數據的距離矩陣已知的情況下。對這個方法的具體實現我同樣不理解。如何構建低維空間的坐標系呢?難道是根據相互間的距離一個點一個點的畫到低維空間里?
凡是有該標志的文章,都是該blog博主Caoer(草兒)原創,凡是索引、收藏
、轉載請注明來處和原文作者。非常感謝。