<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    spark的自留地(ofbiz/eclipse rcp/shark/opentaps)

      BlogJava :: 首頁 :: 聯(lián)系 :: 聚合  :: 管理
      54 Posts :: 0 Stories :: 112 Comments :: 0 Trackbacks
    好象有日子沒更新過blog了,寫篇來證明博主的存在吧。

    好多哥們建了網(wǎng)站,都不知道如何吸引別人的眼球。其實(shí)我覺得的,要么功能,要么內(nèi)容。可是個(gè)人辦的網(wǎng)站,就是二十四小時(shí)掛在網(wǎng)上不停的拷貝粘貼又能做得了多少內(nèi)容? 懶人自有懶辦法,寫個(gè)程序去抓去?


    嗯,想到就得動(dòng)手,不然過陣就忘記了,當(dāng)然嘍,還是謀定而后動(dòng),打算怎么整呢?先選擇好技術(shù):

    1、誰去抓?好象好多人都推薦使用nutch或是herixtrix,不過我覺得象一般的小網(wǎng)站玩玩,就不必這么費(fèi)事了,就用HTMLParser吧,抓取與解析一體化解決吧。

    2、誰來格式化數(shù)據(jù)?同上了,俺用正則習(xí)慣了,正好node + regex 夠你用了。

    3、如何存儲(chǔ)抓來的數(shù)據(jù)? 我是用慣JavaEE了,那就 ibatis + mysql 吧,hiberate 就不必了,雖然我沒打算做個(gè)多高負(fù)載的應(yīng)用,但hibernate怎么也感覺不是很合適吧? (喜歡hiberate別拍磚,我不喜歡口水戰(zhàn),各人有自喜好,而且hibernate我也很喜歡)

    4、如何把你抓來的數(shù)據(jù)表現(xiàn)出來呢? 這個(gè)就得看你自己的需要嘍,CMS 還是 B2B電子商務(wù)程序? 還是一個(gè) CRM或ERP程序(如果這樣的話,倒不妨試試opentaps?)

    5、性能是不是問題? 如果你打算做個(gè)專業(yè)的搜索引擎或是阿里巴巴之類的電子商務(wù)引擎,除去硬件的考慮、數(shù)據(jù)庫的優(yōu)化,也許你要更多地考慮cache的管理,還有可能考慮文件索引(如用lunece)

    6、差點(diǎn)忘記了,誰來調(diào)度這些爬蟲及程序之間的任務(wù)執(zhí)行順序呢? 試試Quartz?!

    又犯困了,先寫這吧,正好有個(gè)朋友要我?guī)兔χ笇?dǎo)做個(gè)類似玩意兒,下次再記錄吧。

    posted on 2009-08-04 21:33 shanghai_spark 閱讀(1476) 評(píng)論(5)  編輯  收藏

    Feedback

    # re: 建了網(wǎng)站沒內(nèi)容咋辦?整隊(duì)網(wǎng)絡(luò)爬蟲出去抓去呀(一) 2009-08-05 00:04 小人物
    對(duì)這個(gè)很感興趣,希望博主能夠?qū)戇@一系列的教程。呵呵。  回復(fù)  更多評(píng)論
      

    # re: 建了網(wǎng)站沒內(nèi)容咋辦?整隊(duì)網(wǎng)絡(luò)爬蟲出去抓去呀(一) 2009-08-05 09:00 popoer
    互聯(lián)網(wǎng)上的垃圾信息就是這樣產(chǎn)生的...  回復(fù)  更多評(píng)論
      

    # re: 建了網(wǎng)站沒內(nèi)容咋辦?整隊(duì)網(wǎng)絡(luò)爬蟲出去抓去呀(一) 2009-08-05 09:10 隔葉黃鶯
    自己用 HTMLParser,然后 node+regex 去解析會(huì)很麻煩的。  回復(fù)  更多評(píng)論
      

    # re: 建了網(wǎng)站沒內(nèi)容咋辦?整隊(duì)網(wǎng)絡(luò)爬蟲出去抓去呀(一) 2009-08-05 16:56 r
    抓出來缺胳膊少腿的內(nèi)容,垃圾網(wǎng)都這樣  回復(fù)  更多評(píng)論
      

    # re: 建了網(wǎng)站沒內(nèi)容咋辦?整隊(duì)網(wǎng)絡(luò)爬蟲出去抓去呀(一) 2009-08-07 03:58 Bond
    對(duì)這方面很感興趣,希望能向博主請(qǐng)教,QQ:329069383  回復(fù)  更多評(píng)論
      


    只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


    網(wǎng)站導(dǎo)航:
     
    主站蜘蛛池模板: 在线观看特色大片免费网站| 免费VA在线观看无码| 免费福利电影在线观看| 亚洲福利精品电影在线观看| 亚洲av无码专区青青草原| 成年女人视频网站免费m| 日本亚洲色大成网站www久久| 成年女性特黄午夜视频免费看| 亚洲综合色丁香婷婷六月图片| 国内大片在线免费看| 亚洲av色香蕉一区二区三区蜜桃| 国内自产拍自a免费毛片| 亚洲av乱码中文一区二区三区 | 亚洲第一精品福利| 日韩精品在线免费观看| 99久久亚洲精品无码毛片| 2015日韩永久免费视频播放| 亚洲va成无码人在线观看| 免费鲁丝片一级在线观看| 午夜在线亚洲男人午在线| 国产亚洲精品激情都市| 国内精品一级毛片免费看| 亚洲乱码中文论理电影| 浮力影院第一页小视频国产在线观看免费| 亚洲avav天堂av在线网毛片| 亚洲精品无码久久久| 玖玖在线免费视频| 亚洲国产情侣一区二区三区| 日本免费高清一本视频| 一区二区三区免费精品视频| 久久综合图区亚洲综合图区| 亚洲精品在线免费观看视频 | 亚洲AV永久无码精品一福利| 亚洲国产午夜福利在线播放| a级毛片免费播放| 亚洲一区二区三区免费观看 | 亚洲av福利无码无一区二区| 99久久久国产精品免费无卡顿| 亚洲av中文无码字幕色不卡| 中文字幕亚洲日韩无线码| 最近2022中文字幕免费视频|