<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆 - 19, 文章 - 93, 評論 - 17, 引用 - 0
    數據加載中……

    數據挖掘 1

    ? 在這個較深的領域也有許多膚淺的體會,在這里做一個小結吧,權當用來理清煩亂的思路.
    ????
    ??????????說到數據挖掘, 不能不首先從定義說起. 數據挖掘的定義是在發展中不斷豐富起來的. 而且對于不同應用領域,定義和理解都是存在區別的.

    ???????? 數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,包括機器學習、數理統計、神經網絡、數據庫、人工智能、模式識別、粗糙集、模糊數學等相關技術。

    ?????? 由于數據挖掘是一門受到來自各種不同領域的研究者關注的交叉性學科,因此從發展過程中導致了很多不同的術語名稱。其中,最常用的術語是"知識發現"和"數據挖掘"。相對來講,數據挖掘主要流行于統計界(最早出現于統計文獻中)、數據分析、數據庫和管理信息系統界;而知識發現則主要流行于人工智能和機器學習界。

    ??? 數據挖掘可粗略地理解為三部曲:數據準備(data preparation)、數據挖掘,以及結果的解釋評估(interpretation and evaluation)。

    ?????? 根據數據挖掘的任務分如下幾種:探索性數據分析、描述建模、分類或預測建模、數據聚類、關聯規則發現、尋找模式和規則、依賴關系或依賴模型發現、異常和趨勢發現等等。
    根據數據挖掘的對象分,有如下若干種數據源:關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據、異質數據庫、遺產(legacy)數據庫,以及Web數據源。
    ??? 根據數據挖掘的方法分,可粗分為:統計方法、機器學習方法、神經網絡方法和數據庫方法。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)、以及模糊集、粗糙集、支持向量機等。機器學習中,可細分為:歸納學習方法(決策樹、規則歸納等)、基于范例的推理CBR、遺傳算法、貝葉斯信念網絡等。神經網絡方法,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是基于可視化的多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。

    ???????數據挖掘算法的組件:四大基本組件:1.模型或模式結構,決定要尋找的潛在結構或函數形式; 2.評分函數,鑒定一個已擬合模型的質量; 3.優化和搜索方法,一套算法執行的方法,其中涉及到優化評分函數和對不同模型和模式結構的搜索; 4.數據管理策略,在搜索和優化過程中高效的管理和訪問數據.

    以上粗淺介紹了數據挖掘的主要概念. 結合語音識別的工作,下面簡要說說當前語音識別的概況.

    ??? 語音信號處理以語音為研究對象, 涉及心理學、生理學、語言學、人工智能、模式識別等多項研究領域. 大體上來看, 語音研究領域分為兩塊: 語音合成(Text to Speech)和語音識別(Automatic Speech Recognition,簡稱ASR),二者可以分別以嘴巴和耳朵來比擬,分別讓電腦具有說話和聽話的能力. 我目前的工作屬于語音識別的領域,所以就較為熟悉一些. 由于ASR的天然的難度,所以這方面的研究比TTS要晚許多. 下面簡要介紹ASR的主要技術.

    ??? 1.20世紀70年代末, 產生了矢量量化的識別技術. 就是將若干個采樣信號分為一組,構成一個矢量,然后一次性進行量化. 然后采用各種方法來度量矢量間的距離, 從而決定識別結果. 因此這里面, 矢量的構成方式、量化方式、距離度量方式都是非常重要的環節.

    ??? 2.動態時間規正的識別技術(Dynamic Time Warping), 是一種把時間規正和距側測度計算結合起來的一種非線性規正技術.也是語音識別中的一種很成功的匹配算法.

    ??? 3. 隱馬爾可夫模型技術(Hidden Markov Model,簡稱HMM). 這一技術是當前世界上的主流技術, 在識別性能上大大超過以前的其他技術. 這是一種統計模型. 其理論基礎是在1970年前后由Baum等人建立起來的, 隨后由CMU的Baker和IBM的Jelinek等人將其應用到語音識別中. 我在剛開始接觸HMM的時候,覺得其深不可測,現在想想這也是在深厚的理論積累上自然而然的結果.在20世紀80年代中期,Bell Lab的Rabiner等人對HMM的深入淺出的介紹, 才使得各國的語音相關的研究人員了解和熟悉HMM, 進而成為公認的有效的語音識別方法. HMM主要涉及數理統計理論、動態規劃等。HMM應用到語音處理時經常會面臨3大基本問題:前向-后向算法、Viterbi算法和Baum-Welch算法。關于HMM的使用,有一個對于全球語音識別研究具有重要作用的工具,那就是劍橋大學工程系的Speech Vision and Robotics Group(不知道如何翻譯合適,大概就是語音感知與機器人研究組)開發的Hidden Markov Model Toolkit (HTK). 由于語音處理涉及到許多方面的數據處理工作,HTK為人們提供了許多方面的支持. 我曾經簡單閱讀了HTK的代碼, 復雜精巧之極, 由于涉及到許多底層的理論, 所以如果不懂得相關理論是很理解代碼的.

    ??? 4.神經網絡技術(Artificial Neutrual Network),相信許多人不會陌生. 它模擬人的大腦的原理(盡管人們還不太了解人的大腦的工作原理),通過許多人工神經元組成一個復雜的多層的網絡, 每個人工神經元都有自己的一個相當于函數的變換. 函數的參數時待定的. 通過已有的訓練集來對這個網絡進行訓練,從而確定網絡中每個神經元的變換方式. 盡管ANN的最終形式很難用可以理解的方式來描述, 但是ANN具有幾乎無限的描述能力, 只要有足夠的訓練數據.(如果訓練數據不足,就可能導致訓練出來的結果過度擬合. 就是說,與訓練集吻合良好,但是對于陌生的數據卻誤差很大) 但是ANN在語音識別領域的使用還是比不上HMM. 可能主要是由于訓練數據的采集是最大的障礙吧.

    一個深切的感受就是,許多技術的性能是很吸引人的, 但是實際做起來會有許多現實的障礙. 所以人們往往在理論和現實之間尋找較好的權衡. 好了, 這次就先到這里. 歡迎感興趣的朋友們一起交流學習.

    【作者: cho_ken】

    posted on 2006-04-21 18:46 BPM 閱讀(361) 評論(0)  編輯  收藏 所屬分類: 計算機領域

    主站蜘蛛池模板: 免费国产a国产片高清| 99国产精品免费观看视频| 天天操夜夜操免费视频| 亚洲人成人77777在线播放| 一级毛片不卡片免费观看| 久久亚洲AV午夜福利精品一区 | 亚洲日韩精品无码一区二区三区| 美女免费精品高清毛片在线视| 日韩免费a级在线观看| 国产亚洲精品免费| 免费萌白酱国产一区二区| 免费人成在线观看播放a| 中文字幕亚洲图片| 中国一级特黄高清免费的大片中国一级黄色片| gogo全球高清大胆亚洲| 一级做a爱过程免费视| 亚洲精品乱码久久久久66| 久久青草精品38国产免费| 久久久久久亚洲AV无码专区| 91高清免费国产自产| 亚洲欧美国产欧美色欲| 亚洲AV无码专区日韩| 99免费精品视频| 亚洲理论精品午夜电影| 最好免费观看韩国+日本| 美女被免费网站视频在线| 国产亚洲精品美女久久久| 久久国产高潮流白浆免费观看| 亚洲人成7777| 亚洲精品视频久久久| 精品无码国产污污污免费网站 | 日本三级2019在线观看免费| 亚洲av无码专区在线电影天堂| 亚洲成a人在线看天堂无码| 免费h视频在线观看| 亚洲一区二区三区成人网站 | 可以免费观看的一级毛片| 成人无码WWW免费视频| 亚洲国产最大av| 亚洲第一区在线观看| 99久久免费观看|