題記:借著開博的機會總結自己的過去,給未來開一個好頭。
兩年以前,我懷著一個特別質樸的目的來到了中科院,那就是——在這里好好的玩上三年。
實際上,在一年級和二年級的日子里,我也確實是這么做的。我跳街舞,沒事就和一幫比我年輕的丫頭小子們頗沒素質的滿地打滾兒;夜里逛酒吧,經常徹夜不歸;偶爾做點正事,那也是跑北京國際車展上給奔馳公司當當Explainer,雖然人家是給錢的,但我對自己說,我是要借此機會和外國人練習口語。
在過去兩年中僅有的一點不用來玩耍的空余時間里,我讀了一百多本書,拋開村上春樹,海巖,米蘭昆德拉這些不算,還有一大堆是好久以前便想看但一直沒時間看的書,比如《代碼大全》、《設計模式》、《Head First OOA&D》、《程序員修煉之道》、《.NET大局觀》等等。當然也少不了最愛的經管類圖書,最經典的《經濟學原理》、《貨幣,銀行與金融市場》、《長尾理論》、《組織行為學》、《性越多越安全》等等,心理學方面的《決策與判斷》、《心理學與生活》、《社會心理學》、《親密關系》等等不一而足。
讀過這些書,我越發感覺自己真不是搞計算機科學的料,無奈到目前為止這仍然是我最擅長的東西,所以一直茍延到現在。
研究生二年級的下半學期,我差點加入到清華大學互聯網信息中心申請的某863項目中,就在與主持該項目的老師面談的當天,他差點連在他們實驗室的工位都一并給我安排好了,只是后來我與自己的老師商議感覺不妥之后,才算作罷。
但免費上著中科院的學,免費住著計算所的宿舍,不能一直就這么晃蕩下去,于是最近我打算開始干點什么,好讓一年以后審我的專家們能在我的論文評審表上給個通過。
我既然是我老師的學生(好啰嗦的話),每個月拿著他給的補貼過活,自然要參加他申請的項目。也直到這時候我才想到回過頭去看看我的老師到底是何許人也。
老師是現在計算所所長,院士李國杰的同班同學,早年兩個人一起搞過人工智能和計算機象棋,后來李國杰繼續待在中科院系統中搞科研,老師則跑去給曙光搞產業化。后來老師的方向轉到了OCR(Optical Character Recognition,光學字符識別)和中文處理上,現在還管理著曙光旗下的一個公司和深圳點通數據有限公司。07年年中的時候,新申請的863項目正式審批完畢,開工上馬,包括海量的網絡資源庫,中英文雙語語料庫,雙語語音庫,基于構件的軟件構造方法等等,也匯集了在這些方面有些造詣的從劍橋歸國的老教授,北京語言大學的專家等一批人,準備把一期好好搞搞,二期要把規模翻番。
我在其中扮演一個小角色,于是選擇的余地也很大。回頭總結了一下自己玩過的東西,發現最熟悉的竟然是J2EE,然后網格也玩過,C++也寫過,還整過人臉識別和OpenGL編程。真是說不出自己擅長什么,于是便隨機的挑選了在中文處理和搜索引擎方面都有點用武之地的文本分類,也開始一頭扎進“紙”堆里(我們都把論文叫Paper,所以也是紙堆啦,哈哈),開始和各種公式打交道。那時候才知道了“讀書破萬卷,下筆如有神”這句話的含義,就是說讀過很多看也看不懂的論文以后,才能寫出那種讓別人看也看不懂的文章,好似“神”寫的天書一般。
無論如何,已經走上了這條路,就得堅持走到黑,從今天起,我的大名就叫文本分類男,小名就叫增量學習,英文名就叫SVM。我以后也就把這里當陣地,把我的那些爛透了的,一點也不新穎的,和古人有著巨大重復的想法傾倒在這里,與大家共勉(笑)。