<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-23  評(píng)論-58  文章-0  trackbacks-0

    http://code.google.com/p/nutla/

    1、概述
     不管程序性能有多高,機(jī)器處理能力有多強(qiáng),都會(huì)有其極限。能夠快速方便的橫向與縱向擴(kuò)展是Nut設(shè)計(jì)最重要的原則。
     Nut是一個(gè)Lucene+Hadoop分布式搜索框架,能對(duì)千G以上索引提供7*24小時(shí)搜索服務(wù)。在服務(wù)器資源足夠的情況下能達(dá)到每秒處理100萬次的搜索請(qǐng)求。
     Nut開發(fā)環(huán)境:jdk1.6.0.21+lucene3.0.2+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.1+hbase0.20.6+memcached+linux

    2、特新
     a、熱插拔
     b、可擴(kuò)展
     c、高負(fù)載
     d、易使用,與現(xiàn)有項(xiàng)目無縫集成
    e、支持排序
    f、7*24服務(wù)
    g、失敗轉(zhuǎn)移

    3、搜索流程
    Nut由Index、Search、Client、Cache和DB五部分構(gòu)成。(Cache默認(rèn)使用memcached,DB默認(rèn)使用hbase)
    Client處理用戶請(qǐng)求和對(duì)搜索結(jié)果排序。Search對(duì)請(qǐng)求進(jìn)行搜索,Search上只放索引,數(shù)據(jù)存儲(chǔ)在DB中,Nut將索引和存儲(chǔ)分離。Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲(chǔ)著數(shù)據(jù),Client根據(jù)搜索排序結(jié)果,取出當(dāng)前頁中的文檔id從DB上讀取數(shù)據(jù)。

    用戶發(fā)起搜索請(qǐng)求給由Nut Client構(gòu)成的集群,由某個(gè)Nut Client根據(jù)搜索條件查詢Cache服務(wù)器是否有該緩存,如果有緩存根據(jù)緩存的文檔id直接從DB讀取數(shù)據(jù),如果沒有緩存將隨機(jī)選擇一組搜索服務(wù)器組(Search Group i),將查詢條件同時(shí)發(fā)給該組搜索服務(wù)器組里的n臺(tái)搜索服務(wù)器,搜索服務(wù)器將搜索結(jié)果返回給Nut Client由其排序,取出當(dāng)前頁文檔id,將搜索條件和當(dāng)前文檔id緩存,同時(shí)從DB讀取數(shù)據(jù)。


    4、索引流程
    Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發(fā)到各個(gè)索引服務(wù)器。
    對(duì)索引的更新分為兩種:刪除和添加(更新分解為刪除和添加)。
    a、刪除
    在HDFS上刪除索引,將生成的*.del文件分發(fā)到所有的索引服務(wù)器上去或者對(duì)HDFS索引目錄刪除索引再分發(fā)到對(duì)應(yīng)的索引服務(wù)器上去。
    b、添加
    新添加的數(shù)據(jù)用另一臺(tái)服務(wù)器來生成。
    刪除和添加步驟可按不同定時(shí)策略來實(shí)現(xiàn)。

    5、Zookeeper服務(wù)器狀態(tài)管理策略

    在架構(gòu)設(shè)計(jì)上通過使用多組搜索服務(wù)器可以支持每秒處理100萬個(gè)搜索請(qǐng)求。
    每組搜索服務(wù)器能處理的搜索請(qǐng)求數(shù)在1萬—1萬5千之間。如果使用100組搜索服務(wù)器,理論上每秒可處理100萬個(gè)搜索請(qǐng)求。


    假如每組搜索服務(wù)器有100份索引放在100臺(tái)正在運(yùn)行中搜索服務(wù)器(run)上,那么將索引按照如下的方式放在備用中搜索服務(wù)器(bak)上:index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上,index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺(tái)備用搜索服務(wù)器上。那么每份索引會(huì)存在3臺(tái)機(jī)器中(1份正在運(yùn)行中,2份備份中)。
    盡管這樣設(shè)計(jì)每份索引會(huì)存在3臺(tái)機(jī)器中,仍然不是絕對(duì)安全的。假如運(yùn)行中的index 1,index 2,index 3同時(shí)宕機(jī)的話,那么就會(huì)有一份索引搜索服務(wù)無法正確啟用。這樣設(shè)計(jì),作者認(rèn)為是在安全性和機(jī)器資源兩者之間一個(gè)比較適合的方案。

    備用中的搜索服務(wù)器會(huì)定時(shí)檢查運(yùn)行中搜索服務(wù)器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對(duì)應(yīng)的服務(wù)器宕機(jī)就會(huì)向lock申請(qǐng)分布式鎖,得到分布式鎖的服務(wù)器就將自己加入到運(yùn)行中搜索服務(wù)器組,同時(shí)從備用搜索服務(wù)器組中刪除自己,并停止運(yùn)行中搜索服務(wù)器檢查服務(wù)。

    為能夠更快速的得到搜索結(jié)果,設(shè)計(jì)上將搜索服務(wù)器分優(yōu)先等級(jí)。通常是將最新的數(shù)據(jù)放在一臺(tái)或幾臺(tái)內(nèi)存搜索服務(wù)器上。通常情況下前幾頁數(shù)據(jù)能在這幾臺(tái)搜索服務(wù)器里搜索到。如果在這幾臺(tái)搜索服務(wù)器上沒有數(shù)據(jù)時(shí)再向其他舊數(shù)據(jù)搜索服務(wù)器上搜索。
    優(yōu)先搜索等級(jí)的邏輯是這樣的:9最大為搜索全部服務(wù)器并且9不能作為level標(biāo)識(shí)。當(dāng)搜索等級(jí)level為1,搜索優(yōu)先級(jí)為1的服務(wù)器,當(dāng)level為2時(shí)搜索優(yōu)先級(jí)為1和2的服務(wù)器,依此類推。

    posted on 2010-10-27 10:38 nianzai 閱讀(6667) 評(píng)論(11)  編輯  收藏 所屬分類: Nut(lucene + hadoop 分布式并行計(jì)算框架)

    評(píng)論:
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2010-10-28 09:15 | qiu768
    博主這套框架是否在實(shí)際項(xiàng)目中用過?  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2010-10-28 09:42 | nianzai
    Nut目前還是alpha版,因需要有大量的機(jī)器所以目前還沒有這樣的條件來實(shí)際使用該框架  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8[未登錄] 2010-10-29 10:04 | JL
    問兩個(gè)問題:
    1. 同步到一組中的每個(gè)nut搜索服務(wù)器上的索引是相同的嗎,就是說是一份大索引?還是說整個(gè)系統(tǒng)的索引是這組服務(wù)器上索引的并集?
    2. 如果直接用搜索服務(wù)器去搜索放在hdfs上的索引時(shí),如何解決hdfs上索引更新時(shí)的同步問題?  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2010-10-29 10:29 | nianzai
    同一組服務(wù)器里服務(wù)器上的索引是不相同的,同一組服務(wù)器共同構(gòu)成一個(gè)完整的大索引

    搜索的時(shí)候并不搜索hdfs上的索引,那樣性能非常差,是要分發(fā)到搜索服務(wù)器上的進(jìn)行本地搜索  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8[未登錄] 2010-10-29 12:24 | YY
    那這樣豈不違背了hadoop的設(shè)計(jì)理念?@nianzai
      回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2010-10-29 13:23 | nianzai
    違背了hadoop的設(shè)計(jì)理念?

    不知道為什么這么說?  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8[未登錄] 2010-11-25 23:32 | keren
    請(qǐng)問在搜索的時(shí)候,是根據(jù)什么來把從M/R里面的結(jié)果組裝起來的?因?yàn)樗阉鹘Y(jié)果是有排序和相似度的。謝謝!  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8[未登錄] 2010-11-26 13:06 | nianzai
    nut并不用M/R來排序,用M/R來排序的話并發(fā)是上不來的

    nut是通過各個(gè)搜索服務(wù)器來實(shí)現(xiàn)本地搜索再在nut client端進(jìn)行合并排序  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2010-12-03 08:58 | zhuweimin
    版主的設(shè)計(jì)的系統(tǒng)和katta有點(diǎn)象,不過katta沒有使用Hbase來保存數(shù)據(jù)和是索引放在一起  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2010-12-03 14:53 | nianzai
    katta發(fā)布的時(shí)候應(yīng)該是還沒有hbase的
    nut 和 katta 是有點(diǎn)像,但是 是兩個(gè)完全不一樣的東西  回復(fù)  更多評(píng)論
      
    # re: lucene + hadoop 分布式搜索運(yùn)行框架 Nut 1.0a8 2011-01-29 12:02 | zzxsky
    我就問一個(gè)問題,如果對(duì)全局索引進(jìn)行評(píng)分,并按照評(píng)分結(jié)果排序?  回復(fù)  更多評(píng)論
      
    主站蜘蛛池模板: 国产又黄又爽又刺激的免费网址| 精品无码AV无码免费专区| 久久综合AV免费观看| 亚洲精品一卡2卡3卡三卡四卡| 欧洲人成在线免费| 亚洲国产女人aaa毛片在线 | 中文在线免费视频| 中文字幕不卡亚洲| 中文字幕免费在线视频| 亚洲成AV人片在线观看| 2021在线永久免费视频| 亚洲免费福利在线视频| 国产传媒在线观看视频免费观看| 产传媒61国产免费| 亚洲国产精品VA在线看黑人| 日韩精品无码免费一区二区三区| 亚洲特级aaaaaa毛片| 成全影视免费观看大全二| 亚洲av无码成人精品国产| 亚洲日韩在线观看免费视频| 国产精品内射视频免费| 亚洲资源在线观看| 女人18毛片水真多免费播放| 曰批免费视频播放免费| 亚洲av无码成h人动漫无遮挡| 在线看片韩国免费人成视频| 国产精品亚洲专区无码牛牛| 亚洲综合精品网站| 天天影视色香欲综合免费| 亚洲Av永久无码精品一区二区| 国外亚洲成AV人片在线观看| 欧洲精品99毛片免费高清观看| 亚洲欧洲日产国码久在线| 国产亚洲午夜高清国产拍精品| 狼群影院在线观看免费观看直播| 亚洲av永久无码天堂网| 国产成A人亚洲精V品无码性色| 成人网站免费观看| a级毛片在线免费| 亚洲日本一线产区和二线 | 亚洲激情电影在线|