? 在這個較深的領(lǐng)域也有許多膚淺的體會,在這里做一個小結(jié)吧,權(quán)當(dāng)用來理清煩亂的思路.
????
??????????說到數(shù)據(jù)挖掘, 不能不首先從定義說起. 數(shù)據(jù)挖掘的定義是在發(fā)展中不斷豐富起來的. 而且對于不同應(yīng)用領(lǐng)域,定義和理解都是存在區(qū)別的.
???????? 數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學(xué)科,包括機器學(xué)習(xí)、數(shù)理統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、人工智能、模式識別、粗糙集、模糊數(shù)學(xué)等相關(guān)技術(shù)。
?????? 由于數(shù)據(jù)挖掘是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此從發(fā)展過程中導(dǎo)致了很多不同的術(shù)語名稱。其中,最常用的術(shù)語是"知識發(fā)現(xiàn)"和"數(shù)據(jù)挖掘"。相對來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計界(最早出現(xiàn)于統(tǒng)計文獻中)、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識發(fā)現(xiàn)則主要流行于人工智能和機器學(xué)習(xí)界。
??? 數(shù)據(jù)挖掘可粗略地理解為三部曲:數(shù)據(jù)準(zhǔn)備(data preparation)、數(shù)據(jù)挖掘,以及結(jié)果的解釋評估(interpretation and evaluation)。
?????? 根據(jù)數(shù)據(jù)挖掘的任務(wù)分如下幾種:探索性數(shù)據(jù)分析、描述建模、分類或預(yù)測建模、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、尋找模式和規(guī)則、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等。
根據(jù)數(shù)據(jù)挖掘的對象分,有如下若干種數(shù)據(jù)源:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)(legacy)數(shù)據(jù)庫,以及Web數(shù)據(jù)源。
??? 根據(jù)數(shù)據(jù)挖掘的方法分,可粗分為:統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)、以及模糊集、粗糙集、支持向量機等。機器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例的推理CBR、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
???????數(shù)據(jù)挖掘算法的組件:四大基本組件:1.模型或模式結(jié)構(gòu),決定要尋找的潛在結(jié)構(gòu)或函數(shù)形式; 2.評分函數(shù),鑒定一個已擬合模型的質(zhì)量; 3.優(yōu)化和搜索方法,一套算法執(zhí)行的方法,其中涉及到優(yōu)化評分函數(shù)和對不同模型和模式結(jié)構(gòu)的搜索; 4.數(shù)據(jù)管理策略,在搜索和優(yōu)化過程中高效的管理和訪問數(shù)據(jù).
以上粗淺介紹了數(shù)據(jù)挖掘的主要概念. 結(jié)合語音識別的工作,下面簡要說說當(dāng)前語音識別的概況.
??? 語音信號處理以語音為研究對象, 涉及心理學(xué)、生理學(xué)、語言學(xué)、人工智能、模式識別等多項研究領(lǐng)域. 大體上來看, 語音研究領(lǐng)域分為兩塊: 語音合成(Text to Speech)和語音識別(Automatic Speech Recognition,簡稱ASR),二者可以分別以嘴巴和耳朵來比擬,分別讓電腦具有說話和聽話的能力. 我目前的工作屬于語音識別的領(lǐng)域,所以就較為熟悉一些. 由于ASR的天然的難度,所以這方面的研究比TTS要晚許多. 下面簡要介紹ASR的主要技術(shù).
??? 1.20世紀(jì)70年代末, 產(chǎn)生了矢量量化的識別技術(shù). 就是將若干個采樣信號分為一組,構(gòu)成一個矢量,然后一次性進行量化. 然后采用各種方法來度量矢量間的距離, 從而決定識別結(jié)果. 因此這里面, 矢量的構(gòu)成方式、量化方式、距離度量方式都是非常重要的環(huán)節(jié).
??? 2.動態(tài)時間規(guī)正的識別技術(shù)(Dynamic Time Warping), 是一種把時間規(guī)正和距側(cè)測度計算結(jié)合起來的一種非線性規(guī)正技術(shù).也是語音識別中的一種很成功的匹配算法.
??? 3. 隱馬爾可夫模型技術(shù)(Hidden Markov Model,簡稱HMM). 這一技術(shù)是當(dāng)前世界上的主流技術(shù), 在識別性能上大大超過以前的其他技術(shù). 這是一種統(tǒng)計模型. 其理論基礎(chǔ)是在1970年前后由Baum等人建立起來的, 隨后由CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語音識別中. 我在剛開始接觸HMM的時候,覺得其深不可測,現(xiàn)在想想這也是在深厚的理論積累上自然而然的結(jié)果.在20世紀(jì)80年代中期,Bell Lab的Rabiner等人對HMM的深入淺出的介紹, 才使得各國的語音相關(guān)的研究人員了解和熟悉HMM, 進而成為公認(rèn)的有效的語音識別方法. HMM主要涉及數(shù)理統(tǒng)計理論、動態(tài)規(guī)劃等。HMM應(yīng)用到語音處理時經(jīng)常會面臨3大基本問題:前向-后向算法、Viterbi算法和Baum-Welch算法。關(guān)于HMM的使用,有一個對于全球語音識別研究具有重要作用的工具,那就是劍橋大學(xué)工程系的Speech Vision and Robotics Group(不知道如何翻譯合適,大概就是語音感知與機器人研究組)開發(fā)的Hidden Markov Model Toolkit (HTK). 由于語音處理涉及到許多方面的數(shù)據(jù)處理工作,HTK為人們提供了許多方面的支持. 我曾經(jīng)簡單閱讀了HTK的代碼, 復(fù)雜精巧之極, 由于涉及到許多底層的理論, 所以如果不懂得相關(guān)理論是很理解代碼的.
??? 4.神經(jīng)網(wǎng)絡(luò)技術(shù)(Artificial Neutrual Network),相信許多人不會陌生. 它模擬人的大腦的原理(盡管人們還不太了解人的大腦的工作原理),通過許多人工神經(jīng)元組成一個復(fù)雜的多層的網(wǎng)絡(luò), 每個人工神經(jīng)元都有自己的一個相當(dāng)于函數(shù)的變換. 函數(shù)的參數(shù)時待定的. 通過已有的訓(xùn)練集來對這個網(wǎng)絡(luò)進行訓(xùn)練,從而確定網(wǎng)絡(luò)中每個神經(jīng)元的變換方式. 盡管ANN的最終形式很難用可以理解的方式來描述, 但是ANN具有幾乎無限的描述能力, 只要有足夠的訓(xùn)練數(shù)據(jù).(如果訓(xùn)練數(shù)據(jù)不足,就可能導(dǎo)致訓(xùn)練出來的結(jié)果過度擬合. 就是說,與訓(xùn)練集吻合良好,但是對于陌生的數(shù)據(jù)卻誤差很大) 但是ANN在語音識別領(lǐng)域的使用還是比不上HMM. 可能主要是由于訓(xùn)練數(shù)據(jù)的采集是最大的障礙吧.
一個深切的感受就是,許多技術(shù)的性能是很吸引人的, 但是實際做起來會有許多現(xiàn)實的障礙. 所以人們往往在理論和現(xiàn)實之間尋找較好的權(quán)衡. 好了, 這次就先到這里. 歡迎感興趣的朋友們一起交流學(xué)習(xí).
【作者: cho_ken】