文本分類(lèi)問(wèn)題與其它分類(lèi)問(wèn)題沒(méi)有本質(zhì)上的區(qū)別,其方法可以歸結(jié)為根據(jù)待分類(lèi)數(shù)據(jù)的某些特征來(lái)進(jìn)行匹配,當(dāng)然完全的匹配是不太可能的,因此必須(根據(jù)某種評(píng)價(jià)標(biāo)準(zhǔn))選擇最優(yōu)的匹配結(jié)果,從而完成分類(lèi)。
因此核心的問(wèn)題便轉(zhuǎn)化為用哪些特征表示一個(gè)文本才能保證有效和快速的分類(lèi)(注意這兩方面的需求往往是互相矛盾的)。因此自有文本分類(lèi)系統(tǒng)的那天起,就一直是對(duì)特征的不同選擇主導(dǎo)著方法派別的不同。
最早的詞匹配法僅僅根據(jù)文檔中是否出現(xiàn)了與類(lèi)名相同的詞(頂多再加入同義詞的處理)來(lái)判斷文檔是否屬于某個(gè)類(lèi)別。很顯然,這種過(guò)于簡(jiǎn)單的方法無(wú)法帶來(lái)良好的分類(lèi)效果。
后來(lái)興起過(guò)一段時(shí)間的知識(shí)工程的方法則借助于專(zhuān)業(yè)人員的幫助,為每個(gè)類(lèi)別定義大量的推理規(guī)則,如果一篇文檔能滿足這些推理規(guī)則,則可以判定屬于該類(lèi)別。這里與特定規(guī)則的匹配程度成為了文本的特征。由于在系統(tǒng)中加入了人為判斷的因素,準(zhǔn)確度比詞匹配法大為提高。但這種方法的缺點(diǎn)仍然明顯,例如分類(lèi)的質(zhì)量嚴(yán)重依賴(lài)于這些規(guī)則的好壞,也就是依賴(lài)于制定規(guī)則的“人”的好壞;再比如制定規(guī)則的人都是專(zhuān)家級(jí)別,人力成本大幅上升常常令人難以承受;而知識(shí)工程最致命的弱點(diǎn)是完全不具備可推廣性,一個(gè)針對(duì)金融領(lǐng)域構(gòu)建的分類(lèi)系統(tǒng),如果要擴(kuò)充到醫(yī)療或社會(huì)保險(xiǎn)等相關(guān)領(lǐng)域,則除了完全推倒重來(lái)以外沒(méi)有其他辦法,常常造成巨大的知識(shí)和資金浪費(fèi)。
后來(lái)人們意識(shí)到,究竟依據(jù)什么特征來(lái)判斷文本應(yīng)當(dāng)隸屬的類(lèi)別這個(gè)問(wèn)題,就連人類(lèi)自己都不太回答得清楚,有太多所謂“只可意會(huì),不能言傳”的東西在里面。人類(lèi)的判斷大多依據(jù)經(jīng)驗(yàn)以及直覺(jué),因此自然而然的會(huì)有人想到何讓機(jī)器像人類(lèi)一樣自己來(lái)通過(guò)對(duì)大量同類(lèi)文檔的觀察來(lái)自己總結(jié)經(jīng)驗(yàn),作為今后分類(lèi)的依據(jù)。
這便是統(tǒng)計(jì)學(xué)習(xí)方法的基本思想(也有人把這一大類(lèi)方法稱(chēng)為機(jī)器學(xué)習(xí),兩種叫法只是涵蓋范圍大小有些區(qū)別,均無(wú)不妥)。
統(tǒng)計(jì)學(xué)習(xí)方法需要一批由人工進(jìn)行了準(zhǔn)確分類(lèi)的文檔作為學(xué)習(xí)的材料(稱(chēng)為訓(xùn)練集,注意由人分類(lèi)一批文檔比從這些文檔中總結(jié)出準(zhǔn)確的規(guī)則成本要低得多),計(jì)算機(jī)從這些文檔重挖掘出一些能夠有效分類(lèi)的規(guī)則,這個(gè)過(guò)程被形象的稱(chēng)為訓(xùn)練,而總結(jié)出的規(guī)則集合常常被稱(chēng)為分類(lèi)器。訓(xùn)練完成之后,需要對(duì)計(jì)算機(jī)從來(lái)沒(méi)有見(jiàn)過(guò)的文檔進(jìn)行分類(lèi)時(shí),便使用這些分類(lèi)器來(lái)進(jìn)行。
現(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)方法已經(jīng)成為了文本分類(lèi)領(lǐng)域絕對(duì)的主流。主要的原因在于其中的很多技術(shù)擁有堅(jiān)實(shí)的理論基礎(chǔ)(相比之下,知識(shí)工程方法中專(zhuān)家的主觀因素居多),存在明確的評(píng)價(jià)標(biāo)準(zhǔn),以及實(shí)際表現(xiàn)良好。
下一章就深入統(tǒng)計(jì)學(xué)習(xí)方法,看看這種方法的前提,相關(guān)理論和具體實(shí)現(xiàn)。