系列文章,從文本分類問題的定義開始,主要講解文本分類系統的構成,主流的統計學習方法以及較為優秀的SVM算法及其改進。

一個文本(以下基本不區分“文本”和“文檔”兩個詞的含義)分類問題就是將一篇文檔歸入預先定義的幾個類別中的一個或幾個,而文本的自動分類則是使用計算機程序來實現這樣的分類。通俗點說,就好比你拿一篇文章,問計算機這文章要說的究竟是體育,經濟還是教育,計算機答不上就打它的屁屁(……)。
注意這個定義當中著重強調的兩個事實。
第一,用于分類所需要的類別體系是預先確定的。例如新浪新聞的分類體系,Yahoo!網頁導航的分類層次。這種分類層次一旦確定,在相當長的時間內都是不可變的,或者即使要變更,也要付出相當大的代價(基本不亞于推倒并重建一個分類系統)。
第二,一篇文檔并沒有嚴格規定只能被分配給一個類別。這與分類這個問題的主觀性有關,例如找10個人判斷一篇文章所陳述的主題究竟屬于金融,銀行還是財政政策領域,10個人可能會給出11個不同的答案(聰明的讀者,您應該能看出來并沒有11個答案,這只是一種修辭方法,笑),因此一篇文章很可能被分配到多個類別當中,只不過分給某些類別讓人信服,而有些讓人感覺模棱兩可罷了(說的專業點,置信度不一樣)。

八股是一種寫文章的格式,過去用于科舉,現在用于科研,總之,和科學有點關系的文章就得八股,鑒于我正鍛煉自己寫論文的能力,所以按照標準的格式,陳述了文本分類問題的定義之后,我要說說它的應用范圍。

現在一說到文本分類,大部分人想當然的將這個問題簡化為判斷一篇文章說的是什么,這只是文本分類的一小部分應用,我們可以稱之為“依據主題的分類”。實際上,文本分類還可以用于判斷文章的寫作風格,作者態度(積極?消極?),甚至判斷作者真偽(例如看看《紅樓夢》最后二十回到底是不是曹雪芹寫的)。總而言之,凡是與文本有關,與分類有關,不管從什么角度出發,依據的是何特征,都可以叫做文本分類。
當然,目前真正大量使用文本分類技術的,仍是依據文章主題的分類,而據此構建最多的系統,當屬搜索引擎。內里的原因當然不言自明,我只是想給大家提個醒,文本分類還不完全等同于網頁分類。網頁所包含的信息遠比含于其中的文字(文本)信息多得多,對一個網頁的分類,除了考慮文本內容的分類以外,鏈入鏈出的鏈接信息,頁面文件本身的元數據,甚至是包含此網頁的網站結構和主題,都能給分類提供莫大的幫助(比如新浪體育專欄里的網頁毫無疑問都是關于體育的),因此說文本分類實際上是網頁分類的一個子集也毫不為過。當然,純粹的文本分類系統與網頁分類也不是一點區別都沒有。文本分類有個重要前提:即只能根據文章的文字內容進行分類,而不應借助諸如文件的編碼格式,文章作者,發布日期等信息。而這些信息對網頁來說常常是可用的,有時起到的作用還很巨大!因此純粹的文本分類系統要想達到相當的分類效果,必須在本身的理論基礎和技術含量上下功夫。
除了搜索引擎,諸如數字圖書館,檔案管理等等要和海量文字信息打交道的系統,都用得上文本分類。另外,我的碩士論文也用得上(笑)。
下一章和大家侃侃與文本分類有關的具體方法概覽,有事您說話。