學習方法:使用樣例(或稱樣本,訓練集)來合成計算機程序的過程稱為學習方法[22]

監督學習:學習過程中使用的樣例是由輸入/輸出對給出時,稱為監督學習[22]。最典型的監督學習例子就是文本分類問題,訓練集是一些已經明確分好了類別文檔組成,文檔就是輸入,對應的類別就是輸出。

非監督學習:學習過程中使用的樣例不包含輸入/輸出對,學習的任務是理解數據產生的過程 [22]。典型的非監督學習例子是聚類,類別的數量,名稱,事先全都沒有確定,由計算機自己觀察樣例來總結得出。

TSRTerm Space Reduction):特征空間的壓縮,即降維,也可以叫做特征提取。包括特征選擇和特征抽取兩大類方法。

分類狀態得分(CSVCategorization Status Value)用于描述將文檔歸于某個類別下有多大的可信度。

準確率(Precision):在所有被判斷為正確的文檔中,有多大比例是確實正確的。

召回率(Recall):在所有確實正確的文檔中,有多大比例被我們判為正確。

假設:計算機對訓練集背后的真實模型(真實的分類規則)的猜測稱為假設。可以把真實的分類規則想像為一個目標函數,我們的假設則是另一個函數,假設函數在所有的訓練數據上都得出與真實函數相同(或足夠接近)的結果。

泛化性:一個假設能夠正確分類訓練集之外數據(即新的,未知的數據)的能力稱為該假設的泛化性[22]

一致假設:一個假設能夠對所有訓練數據正確分類,則稱這個假設是一致的[22]

過擬合:為了得到一致假設而使假設變得過度復雜稱為過擬合[22]。想像某種學習算法產生了一個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本數據(即再拿樣本中的文檔來給它,它絕對不會分錯),但也就為了能夠對樣本完全正確的分類,使得它的構造如此精細復雜,規則如此嚴格,以至于任何與樣本數據稍有不同的文檔它全都認為不屬于這個類別!

超平面(Hyper Plane):n維空間中的線性函數唯一確定了一個超平面。一些較直觀的例子,在二維空間中,一條直線就是一個超平面;在三維空間中,一個平面就是一個超平面。

線性可分和不可分:如果存在一個超平面能夠正確分類訓練數據,并且這個程序保證收斂,這種情況稱為線形可分。如果這樣的超平面不存在,則稱數據是線性不可分的[22]

正樣本和負樣本:對某個類別來說,屬于這個類別的樣本文檔稱為正樣本;不屬于這個類別的文檔稱為負樣本。

規劃:對于目標函數,等式或不等式約束都是線性函數的問題稱為線性規劃問題。對于目標函數是二次的,而約束都是線性函數的最優化問題稱為二次規劃問題[22]

對偶問題:

給定一個帶約束的優化問題

目標函數:min f(x)

約束條件:C(x) ≥0

可以通過拉格朗日乘子構造拉格朗日函數

L(x,λ)=f(x)- λTC(x)

g(λ)= f(x)- λTC(x)

則原問題可以轉化為

目標函數:max g(λ)

約束條件:λ≥0

這個新的優化問題就稱為原問題的對偶問題(兩個問題在取得最優解時達到的條件相同)。