好象有日子沒更新過blog了,寫篇來證明博主的存在吧。
好多哥們建了網(wǎng)站,都不知道如何吸引別人的眼球。其實(shí)我覺得的,要么功能,要么內(nèi)容。可是個(gè)人辦的網(wǎng)站,就是二十四小時(shí)掛在網(wǎng)上不停的拷貝粘貼又能做得了多少內(nèi)容? 懶人自有懶辦法,寫個(gè)程序去抓去?
嗯,想到就得動(dòng)手,不然過陣就忘記了,當(dāng)然嘍,還是謀定而后動(dòng),打算怎么整呢?先選擇好技術(shù):
1、誰去抓?好象好多人都推薦使用nutch或是herixtrix,不過我覺得象一般的小網(wǎng)站玩玩,就不必這么費(fèi)事了,就用HTMLParser吧,抓取與解析一體化解決吧。
2、誰來格式化數(shù)據(jù)?同上了,俺用正則習(xí)慣了,正好node + regex 夠你用了。
3、如何存儲(chǔ)抓來的數(shù)據(jù)? 我是用慣JavaEE了,那就 ibatis + mysql 吧,hiberate 就不必了,雖然我沒打算做個(gè)多高負(fù)載的應(yīng)用,但hibernate怎么也感覺不是很合適吧? (喜歡hiberate別拍磚,我不喜歡口水戰(zhàn),各人有自喜好,而且hibernate我也很喜歡)
4、如何把你抓來的數(shù)據(jù)表現(xiàn)出來呢? 這個(gè)就得看你自己的需要嘍,CMS 還是 B2B電子商務(wù)程序? 還是一個(gè) CRM或ERP程序(如果這樣的話,倒不妨試試opentaps?)
5、性能是不是問題? 如果你打算做個(gè)專業(yè)的搜索引擎或是阿里巴巴之類的電子商務(wù)引擎,除去硬件的考慮、數(shù)據(jù)庫的優(yōu)化,也許你要更多地考慮cache的管理,還有可能考慮文件索引(如用lunece)
6、差點(diǎn)忘記了,誰來調(diào)度這些爬蟲及程序之間的任務(wù)執(zhí)行順序呢? 試試Quartz?!
又犯困了,先寫這吧,正好有個(gè)朋友要我?guī)兔χ笇?dǎo)做個(gè)類似玩意兒,下次再記錄吧。