分類(classification )是這樣的過程:它找出描述并區分數據類或概念的模型(或函數),以便能夠使用模型預測類標記未知的對象類。分類分析在數據挖掘中是一項比較重要的任務,目前在商業上應用最多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個類中。
分類和回歸都可用于預測,兩者的目的都是從歷史數據紀錄中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。與回歸不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續數值。二者常表現為決策樹的形式,根據數據值從樹根開始搜索,沿著數據滿足的分支往上走,走到樹葉就能確定類別。
要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示字段值,c表示類別。分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1)預測準確度;2)計算復雜度;3)模型描述的簡潔度。預測準確度是用得最多的一種比較尺度,特別是對于預測型分類任務。計算復雜度依賴于具體的實現細節和硬件環境,在數據挖掘中,由于操作對象是巨量的數據,因此空間和時間的復雜度問題將是非常重要的一個環節。對于描述型的分類任務,模型描述越簡潔越受歡迎。
另外要注意的是,分類的效果一般和數據的特點有關,有的數據噪聲大,有的有空缺值,有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合于各種特點的數據
聚類(clustering)是指根據“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,這樣的一組數據對象的集合叫做簇,并且對每一個這樣的簇進行描述的過程。它的目的是使得屬于同一個簇的樣本之間應該彼此相似,而不同簇的樣本應該足夠不相似。與分類規則不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函數關系,挖掘的知識用以屬性名為變量的數學方程來表示。
當前,聚類技術正在蓬勃發展,涉及范圍包括數據挖掘、統計學、機器學習、空間數據庫技術、生物學以及市場營銷等領域,聚類分析已經成為數據挖掘研究領域中一個非常活躍的研究課題。常見的聚類算法包括:K-均值聚類算法、K-中心點聚類算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。
本博客為學習交流用,凡未注明引用的均為本人作品,轉載請注明出處,如有版權問題請及時通知。由于博客時間倉促,錯誤之處敬請諒解,有任何意見可給我留言,愿共同學習進步。