日歷
| 日 | 一 | 二 | 三 | 四 | 五 | 六 |
---|
27 | 28 | 29 | 30 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
|
導航
留言簿(1)
隨筆分類(31)
文章分類(4)
收藏夾(21)
搜索
積分與排名
最新隨筆
最新評論

閱讀排行榜
|
-
(轉)TB級別的網頁容器實現方法參考
摘要: 轉自javaeye。一個高性能的Web爬蟲,必須有一個合適的網頁容器。該容量最大的特點是要能夠通過URL直接存取網頁內容,并且要求有很高的性能,在一個千萬級別的容器中存取一萬次的時間應在1分鐘左右(普通PC上)。采用拆衷的辦法,在文件系統的基礎上建立一組大文件和一組輔助文件,輔助文件實現通過URL定位該URL代表的網頁在大文件中的位置,從頁實現不隨文件數量增長而性能變化的快速存取。以下將描述一個簡潔的實現。 閱讀全文
-
常用中文分詞- 整理收集
摘要: 在網上搜集并整理了一些常用中文分詞包,后面慢慢補全: 庖丁解牛分詞包;LingPipe,開源自然語言處理的Java開源工具包;JE分詞包;LibMMSeg;IKAnalyzer;PHPCWS 閱讀全文
-
字符集編碼和編碼字符集(轉摘)
-
Base64編碼學習和java源程序實現
-
Java 生成隨機序列
摘要: 從網上總結的比較好的生成隨機序列的算法:) 閱讀全文
|