無為

無為則可為，無為則至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

　文本挖掘(Text Mining)是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過程，文本挖掘涵蓋多種技術(shù),包括信息抽取,信息檢索,自然語言處理和數(shù)據(jù)挖掘技術(shù)。它的主要用途是從原本未經(jīng)使用的文本中提取出未知的知識(shí)，但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛砭湍：曳墙Y(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)

文本挖掘是應(yīng)用驅(qū)動(dòng)的。它在商業(yè)智能、信息檢索、生物信息處理等方面都有廣泛的應(yīng)用；例如，客戶關(guān)系管理，自動(dòng)郵件回復(fù)，垃圾郵件過濾，自動(dòng)簡(jiǎn)歷評(píng)審，搜索引擎等等。

文本挖掘可以通過下圖有個(gè)大致理解。它由三部分組成：底層是文本挖掘的基礎(chǔ)領(lǐng)域，包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、自然語言處理；在此基礎(chǔ)上是文本挖掘的基本技術(shù)，有五大類，包括文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理；在基本技術(shù)之上是兩個(gè)主要應(yīng)用領(lǐng)域，包括信息訪問和知識(shí)發(fā)現(xiàn)，信息訪問包括信息檢索、信息瀏覽、信息過濾、信息報(bào)告，知識(shí)發(fā)現(xiàn)包括數(shù)據(jù)分析、數(shù)據(jù)預(yù)測(cè)。

? ?

凡是有該標(biāo)志的文章，都是該blog博主Caoer（草兒）原創(chuàng)，凡是索引、收藏
、轉(zhuǎn)載請(qǐng)注明來處和原文作者。非常感謝。

posted on 2006-09-07 12:54 草兒閱讀(302) 評(píng)論(0) 編輯收藏所屬分類: BI and DM

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos開發(fā)心得 WEB數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)層次結(jié)構(gòu) 輕量級(jí)數(shù)據(jù)倉(cāng)庫(kù) 移動(dòng)電信數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)六環(huán)節(jié) 數(shù)據(jù)挖掘--極具發(fā)展前景的新領(lǐng)域智能學(xué)習(xí)資源最佳JAVA BI工具專家觀點(diǎn)：數(shù)據(jù)挖掘的本質(zhì)

無為

公告

隨筆分類(222)

隨筆檔案(188)

相冊(cè)

收藏夾(6)

AJAX

DB BI DM

ＪＡＶＡ編程論壇

ＵＭＬ技術(shù)論壇

搜索

積分與排名

最新評(píng)論

閱讀排行榜