re: 全切分分詞程序,能實現中英文數字混合分詞 nianzai 2012-07-16 18:15
QQ:383138070
re: 全切分分詞程序,能實現中英文數字混合分詞 nianzai 2012-07-16 18:14
這個現在需要手工分發(fā)。
nut 目前只是一個設計參考,想應用的同學可以直接在上面修改應用。如果計劃應用的話,本人無條件提供技術支持,第一時間根據實際情況修改代碼。
呵呵,測試代碼有個 Thread.sleep(8*1000); 這是等待初始化的,所以容易誤解為搜索時間很長.
katta發(fā)布的時候應該是還沒有hbase的
nut 和 katta 是有點像,但是 是兩個完全不一樣的東西
nut并不用M/R來排序,用M/R來排序的話并發(fā)是上不來的
nut是通過各個搜索服務器來實現本地搜索再在nut client端進行合并排序
違背了hadoop的設計理念?
不知道為什么這么說?
同一組服務器里服務器上的索引是不相同的,同一組服務器共同構成一個完整的大索引
搜索的時候并不搜索hdfs上的索引,那樣性能非常差,是要分發(fā)到搜索服務器上的進行本地搜索
Nut目前還是alpha版,因需要有大量的機器所以目前還沒有這樣的條件來實際使用該框架
全局評分的實現大概是這樣的:
每次搜索要分二次。第一次搜索得到文檔總數和文檔詞頻。第二次搜索再將第一次搜索的結果作為參數。
所以并發(fā)必定會下降一半的。
這種方式并不好。作者認為比較好的方式是按內容切分索引。這樣兩者都能有比較好的兼顧。nut在下一個版本alpha8時,會采用這種方式。
是的,nut目前還不能實現全局評分,以后可能會做一個可選的。如果實現全局評分的話,并發(fā)會下降一半的