系列文章,從文本分類(lèi)問(wèn)題的定義開(kāi)始,主要講解文本分類(lèi)系統(tǒng)的構(gòu)成,主流的統(tǒng)計(jì)學(xué)習(xí)方法以及較為優(yōu)秀的SVM算法及其改進(jìn)。

一個(gè)文本(以下基本不區(qū)分“文本”和“文檔”兩個(gè)詞的含義)分類(lèi)問(wèn)題就是將一篇文檔歸入預(yù)先定義的幾個(gè)類(lèi)別中的一個(gè)或幾個(gè),而文本的自動(dòng)分類(lèi)則是使用計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)這樣的分類(lèi)。通俗點(diǎn)說(shuō),就好比你拿一篇文章,問(wèn)計(jì)算機(jī)這文章要說(shuō)的究竟是體育,經(jīng)濟(jì)還是教育,計(jì)算機(jī)答不上就打它的屁屁(……)。
注意這個(gè)定義當(dāng)中著重強(qiáng)調(diào)的兩個(gè)事實(shí)。
第一,用于分類(lèi)所需要的類(lèi)別體系是預(yù)先確定的。例如新浪新聞的分類(lèi)體系,Yahoo!網(wǎng)頁(yè)導(dǎo)航的分類(lèi)層次。這種分類(lèi)層次一旦確定,在相當(dāng)長(zhǎng)的時(shí)間內(nèi)都是不可變的,或者即使要變更,也要付出相當(dāng)大的代價(jià)(基本不亞于推倒并重建一個(gè)分類(lèi)系統(tǒng))。
第二,一篇文檔并沒(méi)有嚴(yán)格規(guī)定只能被分配給一個(gè)類(lèi)別。這與分類(lèi)這個(gè)問(wèn)題的主觀性有關(guān),例如找10個(gè)人判斷一篇文章所陳述的主題究竟屬于金融,銀行還是財(cái)政政策領(lǐng)域,10個(gè)人可能會(huì)給出11個(gè)不同的答案(聰明的讀者,您應(yīng)該能看出來(lái)并沒(méi)有11個(gè)答案,這只是一種修辭方法,笑),因此一篇文章很可能被分配到多個(gè)類(lèi)別當(dāng)中,只不過(guò)分給某些類(lèi)別讓人信服,而有些讓人感覺(jué)模棱兩可罷了(說(shuō)的專(zhuān)業(yè)點(diǎn),置信度不一樣)。

八股是一種寫(xiě)文章的格式,過(guò)去用于科舉,現(xiàn)在用于科研,總之,和科學(xué)有點(diǎn)關(guān)系的文章就得八股,鑒于我正鍛煉自己寫(xiě)論文的能力,所以按照標(biāo)準(zhǔn)的格式,陳述了文本分類(lèi)問(wèn)題的定義之后,我要說(shuō)說(shuō)它的應(yīng)用范圍。

現(xiàn)在一說(shuō)到文本分類(lèi),大部分人想當(dāng)然的將這個(gè)問(wèn)題簡(jiǎn)化為判斷一篇文章說(shuō)的是什么,這只是文本分類(lèi)的一小部分應(yīng)用,我們可以稱(chēng)之為“依據(jù)主題的分類(lèi)”。實(shí)際上,文本分類(lèi)還可以用于判斷文章的寫(xiě)作風(fēng)格,作者態(tài)度(積極?消極?),甚至判斷作者真?zhèn)危ɡ缈纯础都t樓夢(mèng)》最后二十回到底是不是曹雪芹寫(xiě)的)。總而言之,凡是與文本有關(guān),與分類(lèi)有關(guān),不管從什么角度出發(fā),依據(jù)的是何特征,都可以叫做文本分類(lèi)。
當(dāng)然,目前真正大量使用文本分類(lèi)技術(shù)的,仍是依據(jù)文章主題的分類(lèi),而據(jù)此構(gòu)建最多的系統(tǒng),當(dāng)屬搜索引擎。內(nèi)里的原因當(dāng)然不言自明,我只是想給大家提個(gè)醒,文本分類(lèi)還不完全等同于網(wǎng)頁(yè)分類(lèi)。網(wǎng)頁(yè)所包含的信息遠(yuǎn)比含于其中的文字(文本)信息多得多,對(duì)一個(gè)網(wǎng)頁(yè)的分類(lèi),除了考慮文本內(nèi)容的分類(lèi)以外,鏈入鏈出的鏈接信息,頁(yè)面文件本身的元數(shù)據(jù),甚至是包含此網(wǎng)頁(yè)的網(wǎng)站結(jié)構(gòu)和主題,都能給分類(lèi)提供莫大的幫助(比如新浪體育專(zhuān)欄里的網(wǎng)頁(yè)毫無(wú)疑問(wèn)都是關(guān)于體育的),因此說(shuō)文本分類(lèi)實(shí)際上是網(wǎng)頁(yè)分類(lèi)的一個(gè)子集也毫不為過(guò)。當(dāng)然,純粹的文本分類(lèi)系統(tǒng)與網(wǎng)頁(yè)分類(lèi)也不是一點(diǎn)區(qū)別都沒(méi)有。文本分類(lèi)有個(gè)重要前提:即只能根據(jù)文章的文字內(nèi)容進(jìn)行分類(lèi),而不應(yīng)借助諸如文件的編碼格式,文章作者,發(fā)布日期等信息。而這些信息對(duì)網(wǎng)頁(yè)來(lái)說(shuō)常常是可用的,有時(shí)起到的作用還很巨大!因此純粹的文本分類(lèi)系統(tǒng)要想達(dá)到相當(dāng)?shù)姆诸?lèi)效果,必須在本身的理論基礎(chǔ)和技術(shù)含量上下功夫。
除了搜索引擎,諸如數(shù)字圖書(shū)館,檔案管理等等要和海量文字信息打交道的系統(tǒng),都用得上文本分類(lèi)。另外,我的碩士論文也用得上(笑)。
下一章和大家侃侃與文本分類(lèi)有關(guān)的具體方法概覽,有事您說(shuō)話(huà)。