終于回到北京了,結束了將近一年的差旅生涯,結束和飛來飛去,提心吊膽的日子
不用再去想飛機上的顫抖了,不用再去想有人劫持我的飛機撞向某個高層建筑物了,呵呵!
1.下半的目標和計劃很多也很亂,慢慢安排,首先要把駕駛照考完,這個考試比較簡單吧,而且還打賭了考100分就有500塊錢賺,呵呵。然后學車!<2008-11>
2.下半年還要復習CFA考試,力爭先把Level 1過了,學好金融基礎知識,弄好第一塊“磚頭”。<2009-6>
3.另外還要develop一個package供自己使用,包含對股票,期貨等金融衍生產品的定價模型的一些methods,沒有找到關于隨機漫步方法的計算機支持,只有自己開發一套了。<2009-10>
4.深入的學習一下SAS建模的知識,爭取時間學會寫SAS EM代碼(比較難了)。<2009-10>
5.最想做的還有一件事情,自己開發一套分析紙黃金價格波動的軟件(基于定價理論),市面上的都不好用。這個雖然比較難,但是我最喜歡做這個事情,自己搞投機一定要自己用心。<2009-12>
6.四個大的目標夠我忙活一陣子了!
充實自己的生活!
===================
<今年的CFA是重中之重>
新買的CFA的書:
6大本Notes,全英文,夠我喝一壺的了,以后每天晚上就是啤酒加英文的日子了。

還有六本教科書,更沒個看,英文,涉及方面太多了。
期間還要學習,貨幣金融,投資組合,金融數學……
回北京真好,充實自己的生活!
數據挖掘(Data Mining)時下是一個很流行的詞語,網上隨便搜搜便有成把成把的文章為你講述它的起源、發展等歷史。
至于這個行業真正落地的應用個人認為在每個行業都不一樣,我做過互聯網行業,電信移動,銀行的也看過,記錄一下我的體會和感受。互聯網領域,這些年在 google的帶領下,技術日益飛進,真是3天不學習就感覺落后了,在這樣進步的情況下,必然伴隨著行業的激烈競爭,有一些公司開始做數據挖掘,畢竟沒有競爭的挖掘做完了也不會有人用,就算用了,也不會重視你,這點我在移動的感覺非常深刻,了解互聯網做數據挖掘的情況最好就是先去看看各個公司招人的情況,一般這樣會直接暴露出公司想做的方向,深入的思考就會得到很多信息,這里列舉一個比較有名的互聯網公司的招聘信息:
數據挖掘工程師
崗位職責:
1.負責數據挖掘領域的分析研究,包括數據挖掘算法的分析研究,特定工程的數據挖掘模型的需求分析、建模、實驗模擬;
2.負責數據挖掘系統的開發,包括需求分析、系統設計、系統測試和優化。
任職資格:
1.計算機或數學相關專業畢業,碩士以上學歷;有數據挖掘2年以上的研究或數據挖掘項目實施經驗;
2.3年以上的Oracle數據庫的應用軟件開發經驗,非常熟悉Oracle存儲過程腳本編寫,熟悉PL/SQL的開發技術,良好的SQL開發和調優優化技能;
3.3年以上數據挖掘 / 數據倉庫 / ETL相關工作經驗, 具有深厚的統計學、數學、人工智能和數據挖掘知識基礎;
4.熟悉海量數據處理和挖掘的基本算法,有電信或者教育行業數據挖掘、多維分析項目經驗者優先;
5.熟悉互聯網應用,具備Web Service知識,熟悉Spring,Struts等框架;
6.優秀的JAVA/J2EE編程能力,能夠使用JAVA獨立實現復雜的算法結構;熟悉C/C++/Perl/python更佳;
7.快速的學習和研究能力,良好的溝通能力及團隊協作能力。
從上面不難看出點問題,這不是招人,這是在暴露自己的問題,第一公司想招人的目的性不明確,想做什么也不明確,我們對這個招聘做一個分析,簡單的分析。
首先看Coding能力,會Java,這個不難,市場上人很多,但是能實現獨立的算法結構,這不僅僅指簡單的算法,數據結構什么的,要實現的是很多復雜的數學計算式、決策樹變種、聚類、關聯、時序等等復雜算法,這個可不是一般人能做到的,反正我還沒這個水平,估計5年內很難達到,即使有也是google的人了;
其次,要求中寫著做過數據倉庫的項目,DW的項目國內一般都在電信、移動、銀行,做這個的人和做互聯網的人思維方式工作手法完全不同,可以說傳統行業是比較規范的,規范到每個指標,數據統計口徑都要有文檔支持,雖然也有很多臨時需求,但是比起規范性來,互聯網差遠了,反過來講互聯網的優勢在于靈活,基于 DM能出現更多的新的小應用,傳統行業里面比如電信,DM主要做三個方面的東西,集團規范里面有明確的要求:關聯,增量模型,流失模型,對應起來就是關聯分析一般是做產品交叉銷售,增量模型和流失模型都是預測型模型,Dtree、回歸來做新增預測,客戶流失什么的,個別省份也會做客戶細分 (clustering做的),一般這些東西都有一套方法論,一套工作流程,一套完整的開發文檔,規范一直到最后的提交物,另外有著DW系統的強大支持,軟件工具的支持,比如IBM DB2,Oracle DW,NCR Teradata。各家也有工具提供業務人員和技術人員使用,IBM Miner,Oracle達爾文,NCR TWM,還有SAS,spss的DM軟件是相當強悍的,畢竟人家的軟件開發了那么多年,賣的貴也是有道理的。以上都說明了,這些傳統行業的DM應用還是比互聯網成熟的多的。說道互聯網就挺新穎得了,隨著搜索的發展,這些年只要想做Mining的都是想在基于搜索來做,MSRA有一個結果聚類的小應用,就是這樣一個方向,另外互聯網研究的clickstream也是較為成功的方向,盡管好的應用模式還沒有出現。
另外說金融保險領域也是和互聯網領域的Mining區別超級大的,金融的巴塞爾是比較火的,風險管理等等。信用卡欺詐預測……,保險縮減理賠流程時間……,這年頭都在講流程銀行,我不明白是啥東西,也沒學過,反正牛人都在說,要學的東西太多了。
深層次思考一下就會明白,這樣的招聘是根本招不到人的,我承認有牛人存在,什么都強,但是這樣畢竟少數,可以說是極品中的極品,懂數學,懂Mining,懂統計,能Coding,懂數據倉庫,所以互聯網的Mining,尤其在web2.0成熟之后招人最好還是基于開發招比較合理,因為這樣慢慢的過渡才能出現一些比較成型,成體系的小型的Mining應用,才能收到實際效果。一般都是做搜索的人開始做這些東西,畢竟做搜索的人基礎還是不錯的。
另外業界和學校是不同的,經常聽身邊好多Ph.D講他們那時候寫文章的事情,有些還是比較有用的,但是畢竟產業界和學術界有著本質的區別,產業界要賺錢,學術界就是寫文章,呵呵,都知道文章是怎么回事。
最后,互聯網領域,無論是IM,web Service,Blog等等都需要一些方向建立一些成功的小應用,我喜歡的幾個地方有clickstream,cloud,tag system。讓我們一起期待著在web上也有類似CRM這種應用時代的到來,預祝Web Mining越做越好!
雜文一篇,牛人不要罵,呵呵