亚洲三级高清免费,永久亚洲成a人片777777,久久久久亚洲Av无码专

文本分類入門(七)相關概念總結

學習方法：使用樣例（或稱樣本，訓練集）來合成計算機程序的過程稱為學習方法[22]。

監督學習：學習過程中使用的樣例是由輸入/輸出對給出時，稱為監督學習[22]。最典型的監督學習例子就是文本分類問題，訓練集是一些已經明確分好了類別文檔組成，文檔就是輸入，對應的類別就是輸出。

非監督學習：學習過程中使用的樣例不包含輸入/輸出對，學習的任務是理解數據產生的過程 [22]。典型的非監督學習例子是聚類，類別的數量，名稱，事先全都沒有確定，由計算機自己觀察樣例來總結得出。

TSR（Term Space Reduction）：特征空間的壓縮，即降維，也可以叫做特征提取。包括特征選擇和特征抽取兩大類方法。

分類狀態得分（CSV，Categorization Status Value)：用于描述將文檔歸于某個類別下有多大的可信度。

準確率（Precision）：在所有被判斷為正確的文檔中，有多大比例是確實正確的。

召回率（Recall）：在所有確實正確的文檔中，有多大比例被我們判為正確。

假設：計算機對訓練集背后的真實模型（真實的分類規則）的猜測稱為假設。可以把真實的分類規則想像為一個目標函數，我們的假設則是另一個函數，假設函數在所有的訓練數據上都得出與真實函數相同（或足夠接近）的結果。

泛化性：一個假設能夠正確分類訓練集之外數據（即新的，未知的數據）的能力稱為該假設的泛化性[22]。

一致假設：一個假設能夠對所有訓練數據正確分類，則稱這個假設是一致的[22]。

過擬合：為了得到一致假設而使假設變得過度復雜稱為過擬合[22]。想像某種學習算法產生了一個過擬合的分類器，這個分類器能夠百分之百的正確分類樣本數據（即再拿樣本中的文檔來給它，它絕對不會分錯），但也就為了能夠對樣本完全正確的分類，使得它的構造如此精細復雜，規則如此嚴格，以至于任何與樣本數據稍有不同的文檔它全都認為不屬于這個類別！

超平面（Hyper Plane）：n維空間中的線性函數唯一確定了一個超平面。一些較直觀的例子，在二維空間中，一條直線就是一個超平面；在三維空間中，一個平面就是一個超平面。

線性可分和不可分：如果存在一個超平面能夠正確分類訓練數據，并且這個程序保證收斂，這種情況稱為線形可分。如果這樣的超平面不存在，則稱數據是線性不可分的[22]。

正樣本和負樣本：對某個類別來說，屬于這個類別的樣本文檔稱為正樣本；不屬于這個類別的文檔稱為負樣本。

規劃：對于目標函數，等式或不等式約束都是線性函數的問題稱為線性規劃問題。對于目標函數是二次的，而約束都是線性函數的最優化問題稱為二次規劃問題[22]。

對偶問題：

給定一個帶約束的優化問題

目標函數：min f(x)

約束條件：C(x) ≥0

可以通過拉格朗日乘子構造拉格朗日函數

L(x,λ)=f(x)- λ^TC(x)

令g(λ)= f(x)- λ^TC(x)

則原問題可以轉化為

目標函數：max g(λ)

約束條件：λ≥0

這個新的優化問題就稱為原問題的對偶問題（兩個問題在取得最優解時達到的條件相同）。

發表于 2008-06-05 00:26 Jasper 閱讀(4975) 評論(0) 編輯收藏所屬分類: 文本分類技術

文章分類

搜索

最新評論

1.?re: Java中NaN和-0.0f的比較問題
@lele685
答案是1，而不是-1，博主寫錯了
--小稀稀和她的小摩的
2.?re: 文本分類入門（十一）特征選擇方法之信息增益[未登錄]
只適用于二元特征屬性的情況，也就說特征只能取值0或者1
--wonderful
3.?re: SVM入門（十）將SVM用于多類分類
6年前的文章。。現在看依舊不過時。。。能把高深的問題講得通俗易懂。。
實力可見一斑。收下我的膝蓋
--固執的蝸牛
4.?re: SVM入門（十）將SVM用于多類分類
不知為何博主的博客不更新了，好可惜。
謝謝博主的文章，你的SVM系列讓我真正理解了SVM。
--cal
5.?re: 文本分類入門(五)訓練Part 2
請問對于測試集的特征提取方法和訓練集相同么？
我有個疑問，如果用開方的方法提取的話，不是需要知道某一個特征是否出現在某個類別里么？
但是測試集并不知道這個信息呀。
--prejudice

閱讀排行榜

評論排行榜

文本分類入門(七)相關概念總結

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0