亚洲第一页在线视频,亚洲精品无码久久毛片,国产成人精品久久亚洲

文本分類入門(九)文本分類問題的分類

開始之前首先說說分類體系。回憶一下，分類體系是指事先確定的類別的層次結構以及文檔與這些類別間的關系。
其中包含著兩方面的內容：
一，類別之間的關系。一般來說類別之間的關系都是可以表示成樹形結構，這意味著一個類有多個子類，而一個子類唯一的屬于一個父類。這種類別體系很常用，卻并不代表它在現實世界中也是符合常識的，舉個例子，“臨床心理學”這個類別應該即屬于“臨床醫學”的范疇，同時也屬于“心理學”，但在分類系統中卻不便于使用這樣的結構。想象一下，這相當于類別的層次結構是一個有環圖，無論遍歷還是今后類別的合并，比較，都會帶來無數的麻煩。
二，文檔與類別間的關系。一般來說，在分類系統中，我們傾向于讓一篇文檔唯一的屬于一個類別（更嚴格的說，是在同一層次中僅屬于一個類別，因為屬于一個類別的時候，顯然也屬于這個類別的父類別），這使得我們只適用一個標簽就可以標記這個文檔的類別，而一旦允許文檔屬于多個類別，標簽的數目便成為大小不定的變量，難于設計成高效的數據結構。這種“屬于多個”類的想法更糟的地方在于文檔類別表示的語義方面，試想，如果姚明給災區捐款的新聞即屬于災區新聞，也屬于體育新聞的話（這在現實中倒確實是合情合理的），當用戶使用這個系統來查找文檔，指定的條件是要所有“屬于災區新聞但不屬于體育新聞的新聞”（有點拗口，不過正好練嘴皮子啦，笑）的時候，這篇姚明的報道是否應該包含在查詢結果中呢？這是一個矛盾的問題。

文本分類問題牽涉到如此多的主題，本身又含有如此多的屬性，因此可以從多個角度對文本分類問題本身進行一下分類。

分類系統使用何種分類算法是分類系統的核心屬性。如果一個分類算法在一次分類判斷時，僅僅輸出一個真假值用來表示待分類的文檔是否屬于當前類別的話，這樣的系統就可以叫做基于二元分類器的分類系統。有些分類算法天然就是獨立二元的，例如支持向量機，它只能回答這個文檔是或不是這個類別的。這種分類算法也常常被稱為“硬分類”的算法（Hard Categorization）。而有的算法在一次判斷后就可以輸出文檔屬于多個類別的得分（假設說，得分越大，則說明越有可能屬于這個類別），這類算法稱為“排序分類”的算法（Ranking Categorization），也叫做m元分類算法。kNN就是典型的m元分類算法（因為kNN會找出與待分類文檔最相近的訓練樣本，并記錄下這些樣本所屬的分類）。

發表于 2008-11-26 23:55 Jasper 閱讀(5906) 評論(4) 編輯收藏所屬分類: 文本分類技術

評論

# re: 文本分類入門(九)文本分類問題的分類

好，值得關注，標記一下。

heyang 評論于 2008-11-27 10:24 回復更多評論

# re: 文本分類入門(九)文本分類問題的分類

有知就讓人尊敬了,能夠把所知與人共享,則更讓人敬佩!
謝謝了,收藏!
希望能夠有更多的精彩文章出現!

康橋陽光評論于 2008-11-30 15:30 回復更多評論

# re: 文本分類入門(九)文本分類問題的分類

很好的文章啊，博主對自然語言處理這方面很厲害啊，有機會向你請教！有時間加我msn吧：gcgmh@hotmail.com,不知博主的msn多少？能告訴我一下嗎？

gcg 評論于 2008-12-03 18:13 回復更多評論

# re: 文本分類入門(九)文本分類問題的分類[未登錄]

謝謝分享，期待更新。

lyh 評論于 2008-12-19 11:04 回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 文本分類入門（番外篇）特征選擇與特征權重計算的區別 SVM入門（十）將SVM用于多類分類文本分類入門（十一）特征選擇方法之信息增益 SVM入門（九）松弛變量（續） SVM入門（八）松弛變量 SVM入門（七）為何需要核函數 SVM入門（六）線性分類器的求解——問題的轉化，直觀角度 SVM入門（五）線性分類器的求解——問題的描述Part2 SVM入門（四）線性分類器的求解——問題的描述Part1 SVM入門（一）至（三）Refresh

文章分類

搜索

文本分類入門(九)文本分類問題的分類

公告

常用鏈接

留言簿(64)

隨筆分類

隨筆檔案

文章分類

搜索

最新評論

閱讀排行榜

評論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁 \| 發新隨筆 \| 發新文章 \| 聯系 \| 聚合 \| 管理	隨筆：51 文章：2 評論：717 引用：0