日歷
| 日 | 一 | 二 | 三 | 四 | 五 | 六 |
---|
29 | 30 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|
導(dǎo)航
留言簿(1)
隨筆分類(lèi)(31)
文章分類(lèi)(4)
收藏夾(21)
搜索
積分與排名
最新隨筆
最新評(píng)論

閱讀排行榜
|
-
(轉(zhuǎn))TB級(jí)別的網(wǎng)頁(yè)容器實(shí)現(xiàn)方法參考
摘要: 轉(zhuǎn)自javaeye。一個(gè)高性能的Web爬蟲(chóng),必須有一個(gè)合適的網(wǎng)頁(yè)容器。該容量最大的特點(diǎn)是要能夠通過(guò)URL直接存取網(wǎng)頁(yè)內(nèi)容,并且要求有很高的性能,在一個(gè)千萬(wàn)級(jí)別的容器中存取一萬(wàn)次的時(shí)間應(yīng)在1分鐘左右(普通PC上)。采用拆衷的辦法,在文件系統(tǒng)的基礎(chǔ)上建立一組大文件和一組輔助文件,輔助文件實(shí)現(xiàn)通過(guò)URL定位該URL代表的網(wǎng)頁(yè)在大文件中的位置,從頁(yè)實(shí)現(xiàn)不隨文件數(shù)量增長(zhǎng)而性能變化的快速存取。以下將描述一個(gè)簡(jiǎn)潔的實(shí)現(xiàn)。 閱讀全文
-
常用中文分詞- 整理收集
摘要: 在網(wǎng)上搜集并整理了一些常用中文分詞包,后面慢慢補(bǔ)全: 庖丁解牛分詞包;LingPipe,開(kāi)源自然語(yǔ)言處理的Java開(kāi)源工具包;JE分詞包;LibMMSeg;IKAnalyzer;PHPCWS 閱讀全文
-
字符集編碼和編碼字符集(轉(zhuǎn)摘)
-
Base64編碼學(xué)習(xí)和java源程序?qū)崿F(xiàn)
-
Java 生成隨機(jī)序列
摘要: 從網(wǎng)上總結(jié)的比較好的生成隨機(jī)序列的算法:) 閱讀全文
|