<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    隨筆-153  評論-235  文章-19  trackbacks-0
      2008年6月25日
    如鼠標移到 class 為 box 的 div 標簽中背景變色

    .vbox div:hover{background: #ddd;}

    據說 IE6.0、Firefox2.0、Opera 9.23都不支持

    posted @ 2010-02-24 22:10 流浪汗 閱讀(1977) | 評論 (0)編輯 收藏
    想改 a  的默認方式,比如:鏈接不要下劃線,鼠標移到上面時有劃線。

    css 如
    a:hover {text-decoration: underline;}
    a:link 
    {text-decoration: none;}
    a:visited 
    {text-decoration: none;}

    是沒有達到鼠標稱到上面有劃線。

    必須改為:
    a:link {text-decoration: none;}
    a:visited 
    {text-decoration: none;}
    a:hover 
    {text-decoration: underline;}

    a:hover 放到最后。
    posted @ 2010-02-24 22:04 流浪汗 閱讀(1000) | 評論 (3)編輯 收藏
    一、介紹Nginx是俄羅斯人編寫的十分輕量級的HTTP服務器,Nginx,它的發音為“engine X”, 是一個高性能的HTTP和反向代理服務器,同時也是一個IMAP/POP3/SMTP 代理服務器.
    二、Location語法語法:location [=|~|~*|^~] /uri/ { … }
    注:
    1、~   為區分大小寫匹配
    2、~* 為不區分大小寫匹配
    3、!~和!~*分別為區分大小寫不匹配及不區分大小寫
    不匹配
    示例一:
    location  / {
    }
    匹配任何查詢,因為所有請求都以 / 開頭。但是正則表達式規則將被優先和查詢匹配。
    示例二:
    location =/ {}
    僅僅匹配/

    示例三:
    location ~* \.(gif|jpg|jpeg)$ {
    rewrite \.(gif|jpg)$ /logo.png;

    注:不區分大小寫匹配任何以gif,jpg,jpeg結尾的文件

    三、ReWrite語法
    last - 基本上都用這個Flag。
    break - 中止Rewirte,不在繼續匹配
    redirect - 返回臨時重定向的HTTP狀態302
    permanent - 返回永久重定向的HTTP狀態301

    1、下面是可以用來判斷的表達式:
    -f和!-f用來判斷是否存在文件
    -d和!-d用來判斷是否存在目錄
    -e和!-e用來判斷是否存在文件或目錄
    -x和!-x用來判斷文件是否可執行
    2、下面是可以用作判斷的全局變量
    例:http://localhost:88/test1/test2/test.php
    $host:localhost
    $server_port:88
    $request_uri:
    http://localhost:88/test1/test2/test.php
    $document_uri:/test1/test2/test.php
    $document_root:D:\nginx/html
    $request_filename:D:\nginx/html/test1/test2/test.php

    四、Redirect語法
        server {
        listen 80;
        server_name start.igrow.cn;
        index index.html index.php;
        root html;
        if ($http_host !~ "^star\.igrow\.cn$&quot {
             rewrite ^(.*)
    http://star.igrow.cn$1 redirect;
        }
        }

    五、防盜鏈location ~* \.(gif|jpg|swf)$ {
      valid_referers none blocked start.igrow.cn sta.igrow.cn;
      if ($invalid_referer) {
      rewrite ^/
    http://$host/logo.png;
      }
    }

    六、根據文件類型設置過期時間
    location ~* \.(js|css|jpg|jpeg|gif|png|swf)$ {
    if (-f $request_filename) {
       expires    1h;
       break;
    }
    }

    七、禁止訪問某個目錄
    location ~* \.(txt|doc)${
       
      root /data/www/wwwroot/linuxtone/test;
       
    deny all;
    }

    轉:http://www.phpchina.com/html/70/t-162870.html,http://idev.yo2.cn/go/19761.html
    posted @ 2010-02-03 10:25 流浪汗 閱讀(12018) | 評論 (0)編輯 收藏
    top命令是Linux下常用的性能分析工具,能夠實時顯示系統中各個進程的資源占用狀況,類似于Windows的任務管理器。下面詳細介紹它的使用方法。

       
     top - 01:06:48 up  1:22,  1 user,  load average: 0.06, 0.60, 0.48
    Tasks:  29 total,   1 running,  28 sleeping,   0 stopped,   0 zombie
    Cpu(s):  0.3% us,  1.0% sy,  0.0% ni, 98.7% id,  0.0% wa,  0.0% hi,  0.0% si
    Mem:    191272k total,   173656k used,    17616k free,    22052k buffers
    Swap:   192772k total,        0k used,   192772k free,   123988k cached

       PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
      1379 root      16   0  7976 2456 1980 S  0.7  1.3   0:11.03 sshd
    14704 root      16   0  2128  980  796 R  0.7  0.5   0:02.72 top
         1 root      16   0  1992  632  544 S  0.0  0.3   0:00.90 init
         2 root      34  19     0    0    0 S  0.0  0.0   0:00.00 ksoftirqd/0
         3 root      RT   0     0    0    0 S  0.0  0.0   0:00.00 watchdog/0

        統計信息區
        前五行是系統整體的統計信息。第一行是任務隊列信息,同 uptime 命令的執行結果。其內容如下:

        01:06:48 當前時間
        up 1:22 系統運行時間,格式為時:分
        1 user 當前登錄用戶數
        load average: 0.06, 0.60, 0.48 系統負載,即任務隊列的平均長度。
        三個數值分別為 1分鐘、5分鐘、15分鐘前到現在的平均值。

        第二、三行為進程和CPU的信息。當有多個CPU時,這些內容可能會超過兩行。內容如下:

        Tasks: 29 total 進程總數
        1 running 正在運行的進程數
        28 sleeping 睡眠的進程數
        0 stopped 停止的進程數
        0 zombie 僵尸進程數
        Cpu(s): 0.3% us 用戶空間占用CPU百分比
        1.0% sy 內核空間占用CPU百分比
        0.0% ni 用戶進程空間內改變過優先級的進程占用CPU百分比
        98.7% id 空閑CPU百分比
        0.0% wa 等待輸入輸出的CPU時間百分比
        0.0% hi
        0.0% si

        最后兩行為內存信息。內容如下:

        Mem: 191272k total 物理內存總量
        173656k used 使用的物理內存總量
        17616k free 空閑內存總量
        22052k buffers 用作內核緩存的內存量
        Swap: 192772k total 交換區總量
        0k used 使用的交換區總量
        192772k free 空閑交換區總量
        123988k cached 緩沖的交換區總量。
        內存中的內容被換出到交換區,而后又被換入到內存,但使用過的交換區尚未被覆蓋,
        該數值即為這些內容已存在于內存中的交換區的大小。
        相應的內存再次被換出時可不必再對交換區寫入。

    進程信息區
        統計信息區域的下方顯示了各個進程的詳細信息。首先來認識一下各列的含義。

        序號 列名 含義
        a PID 進程id
        b PPID 父進程id
        c RUSER Real user name
        d UID 進程所有者的用戶id
        e USER 進程所有者的用戶名
        f GROUP 進程所有者的組名
        g TTY 啟動進程的終端名。不是從終端啟動的進程則顯示為 ?
        h PR 優先級
        i NI nice值。負值表示高優先級,正值表示低優先級
        j P 最后使用的CPU,僅在多CPU環境下有意義
        k %CPU 上次更新到現在的CPU時間占用百分比
        l TIME 進程使用的CPU時間總計,單位秒
        m TIME+ 進程使用的CPU時間總計,單位1/100秒
        n %MEM 進程使用的物理內存百分比
        o VIRT 進程使用的虛擬內存總量,單位kb。VIRT=SWAP+RES
        p SWAP 進程使用的虛擬內存中,被換出的大小,單位kb。
        q RES 進程使用的、未被換出的物理內存大小,單位kb。RES=CODE+DATA
        r CODE 可執行代碼占用的物理內存大小,單位kb
        s DATA 可執行代碼以外的部分(數據段+棧)占用的物理內存大小,單位kb
        t SHR 共享內存大小,單位kb
        u nFLT 頁面錯誤次數
        v nDRT 最后一次寫入到現在,被修改過的頁面數。
        w S 進程狀態。
        D=不可中斷的睡眠狀態
        R=運行
        S=睡眠
        T=跟蹤/停止
        Z=僵尸進程
        x COMMAND 命令名/命令行
        y WCHAN 若該進程在睡眠,則顯示睡眠中的系統函數名
        z Flags 任務標志,參考 sched.h

        默認情況下僅顯示比較重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列??梢酝ㄟ^下面的快捷鍵來更改顯示內容。

        更改顯示內容
        通過 f 鍵可以選擇顯示的內容。按 f 鍵之后會顯示列的列表,按 a-z 即可顯示或隱藏對應的列,最后按回車鍵確定。

        按 o 鍵可以改變列的顯示順序。按小寫的 a-z 可以將相應的列向右移動,而大寫的 A-Z 可以將相應的列向左移動。最后按回車鍵確定。

        按大寫的 F 或 O 鍵,然后按 a-z 可以將進程按照相應的列進行排序。而大寫的 R 鍵可以將當前的排序倒轉。

     命令使用

        1. 工具(命令)名稱
        top
        2.工具(命令)作用
        顯示系統當前的進程和其他狀況; top是一個動態顯示過程,即可以通過用戶按鍵來不斷刷新當前狀態.如果在前臺執行該命令,它將獨占前臺,直到用戶終止該程序為止. 比較準確的說,top命令提供了實時的對系統處理器的狀態監視.它將顯示系統中CPU最“敏感”的任務列表.該命令可以按CPU使用.內存使用和執行時間對任務進行排序;而且該命令的很多特性都可以通過交互式命令或者在個人定制文件中進行設定.
        3.環境設置
        在Linux下使用。
        4.使用方法
        4.1使用格式
        top [-] [d] [p] [q] [c] [C] [S] [s]  [n]
        4.2參數說明
         d 指定每兩次屏幕信息刷新之間的時間間隔。當然用戶可以使用s交互命令來改變之。
         p 通過指定監控進程ID來僅僅監控某個進程的狀態。
         q該選項將使top沒有任何延遲的進行刷新。如果調用程序有超級用戶權限,那么top將以盡可能高的優先級運行。
         S 指定累計模式
         s 使top命令在安全模式中運行。這將去除交互命令所帶來的潛在危險。
         i  使top不顯示任何閑置或者僵死進程。
         c  顯示整個命令行而不只是顯示命令名
        4.3其他
           下面介紹在top命令執行過程中可以使用的一些交互命令。從使用角度來看,熟練的掌握這些命令比掌握選項還重要一些。這些命令都是單字母的,如果在命令行選項中使用了s選項,則可能其中一些命令會被屏蔽掉。
          Ctrl+L 擦除并且重寫屏幕。
          h或者? 顯示幫助畫面,給出一些簡短的命令總結說明。
          k 終止一個進程。系統將提示用戶輸入需要終止的進程PID,以及需要發送給該進程什么樣的信號。一般的終止進程可以使用15信號;如果不能正常結束那就使用信號9強制結束該進程。默認值是信號15。在安全模式中此命令被屏蔽。
          i 忽略閑置和僵死進程。這是一個開關式命令。
          q 退出程序。
          r 重新安排一個進程的優先級別。系統提示用戶輸入需要改變的進程PID以及需要設置的進程優先級值。輸入一個正值將使優先級降低,反之則可以使該進程擁有更高的優先權。默認值是10。
          S 切換到累計模式。
          s 改變兩次刷新之間的延遲時間。系統將提示用戶輸入新的時間,單位為s。如果有小數,就換算成m s。輸入0值則系統將不斷刷新,默認值是5 s。需要注意的是如果設置太小的時間,很可能會引起不斷刷新,從而根本來不及看清顯示的情況,而且系統負載也會大大增加。
          f或者F 從當前顯示中添加或者刪除項目。
          o或者O 改變顯示項目的順序。
          l 切換顯示平均負載和啟動時間信息。
          m 切換顯示內存信息。
          t 切換顯示進程和CPU狀態信息。
          c 切換顯示命令名稱和完整命令行。
          M 根據駐留內存大小進行排序。
          P 根據CPU使用百分比大小進行排序。
          T 根據時間/累計時間進行排序。
            W 將當前設置寫入~/.toprc文件中。這是寫top配置文件的推薦方法。

    posted @ 2010-01-08 11:08 流浪汗 閱讀(752) | 評論 (0)編輯 收藏

    想發布新版的 mmseg4j 到現在已經有二個多月了。主要是因為這段時間忙其它事情了?,F Lucene 2.9 發布了,solr 1.4 也應該會比較快就要發布了。對 mmseg4j 兼容新版的 lucene/solr 也是個任務。

    現 mmseg4j 發布新版 1.8,可以下載:mmseg4j-1.8.zip 包括了源碼與詞庫,還有創建文件。下面說下此版的主要變更:

    new:

    1、有檢測詞典變更的接口,外部程序可以使用 wordsFileIsChange() 和 reload() 來完成檢測與加載的工作. (內部不實現自動檢測與加載,留給外部程序去做。)

    2、添加 MMseg4jHandler 類,可以在solr中用url的方式來控制加載檢測詞庫。

    3、增加 CutLetterDigitFilter過慮器,切分“字母和數”混在一起的過慮器。比如:mb991ch 切為 "mb 991 ch"。

    changes:

    1、默認在 classpath 中加載 data 目錄(詞庫目錄),找不到再找 user.dir/data 目錄。但是優先 mmseg.dic.path 系統屬性指定的。

    2、新詞庫,去除 sogou 高頻無詞性的詞,合并 rmmseg 提供的詞(是 mmseg4j 1.0 使用的詞庫),共計(14W 多詞)。

    3、數字或英文開頭的數字或英文不獨立分出。如 MB991CH/A 分為 mb991ch a,cq40-519tx 分為 CQ40 519TX

    4、內置支持小寫,不需要 LowerCaseFilter 了。MMSegAnalyzer 去除了小寫過慮。

    5、支持 solr 1.3/1.4、lucene 2.3/2.4/2.9

    6、嘗試加載 jar 里的 words.dic,并構建含有 words.dic 的 jar(mmseg4j-*-with-dic.jar)。

    bugs:

    1、Dictionary 添加 finalize 方法。修正 tomcat reload 時 OOM 的 bug: http://code.google.com/p/mmseg4j/issues/detail?id=4

    2、MMSegTokenizer 在 lucene 2.4 編譯的 在 lucene 2.9 中會報 java.lang.NoSuchFieldError: input。bug: http://code.google.com/p/mmseg4j/issues/detail?id=5

    詳情:http://blog.chenlb.com/2009/10/chinese-segment-mmseg4j-1_8-release.html

    posted @ 2009-10-19 09:28 流浪汗 閱讀(3444) | 評論 (1)編輯 收藏
    中文分詞 mmseg4j 1.7.2 版發布,其實兩天前就發布了,只是沒有寫博客而已。與引版本發布的還有 1.6.2,兩者基本一樣,只是詞庫的數據結構不同,1.7的是鍵樹,1.6的是數組與二分查找。 mmseg4j 1.7.2 版的主要更新:
    • 修復由 1.7-beta 升級到 1.7 版的 bug:添加 lowerCaseFilter 后的一個 bug: NullPointerException。
    • 核發程序與 lucene 和 solr 擴展分開打包, 同時給出低版本的 lucene 擴展(lucene 1.9 到 2.2; lucene 2.3)
    如何從源碼編譯:下載源碼:mmseg4j-1.7.2-srcmmseg4j-1.6.2-src。解壓到如:e:/mmseg4j-1.7.2-src。然后到這個目錄,運行:

     




    上面編譯是在 solr 1.3 和 lucene 2.4 環境下的。如果您要在 低版本的 lucene 中使用,到 e:/mmseg4j-1.7.2-src/contrib/lucene_1_9 或 e:/mmseg4j-1.7.2-src/contrib/lucene_2_3 運行:

     

    說明:到 contrib 下的子項目中編譯的話,先要編譯 mmseg4j,contrib/lucene_1_9 可以支持到 2.2。

    如果有任何疑問、建議,歡迎到論壇 http://groups.google.com/group/mmseg4j/topics?hl=zh_CN 討論。或與我聯系 chenlb2008#gmail.com。

    還要感謝網友“苦澀可樂”提示 NullPointerException 的bug。

    官方博客:mmseg4j,項目:google code mmseg4j
    posted @ 2009-04-27 20:00 流浪汗 閱讀(2917) | 評論 (0)編輯 收藏
    很久沒有在此博客寫東西了。但一個多月了,原因是我已經有自己的博客空間了,此博客很少更新,不過如果寫得好文就轉載到此博客。

    posted @ 2008-10-25 11:54 流浪汗 閱讀(679) | 評論 (0)編輯 收藏
    一直找代碼高亮顯示,在wp上可以有coolcode但,覺得美中不足的是服務器解析,每請求一次做一次。今天偶然看到 Unmi的博客,他的代碼好漂亮,看源碼,知道shCore,把他的拿過來試用下。 java 代碼

    java 代碼

    groovy 代碼

     

    posted @ 2008-09-05 00:26 流浪汗 閱讀(1337) | 評論 (2)編輯 收藏
    .tgz 解壓:
    tar zxvf myfile.tgz
    posted @ 2008-09-03 13:33 流浪汗 閱讀(46237) | 評論 (3)編輯 收藏
    solr分發問題。
    用rsync同步目錄里出現:rsync:link_stat "snapshot.20080820124136/." (in solr) failed: No such file or directory (2)

    上一編配置得沒什么問題:http://www.tkk7.com/chenlb/archive/2008/07/04/212398.html ?,F竟然出錯,郁悶。

    網上找了下, 說明路徑有空格。http://bbs.chinaunix.net/viewthread.php?tid=1003058

    二樓的回復:

    帶空格的文件/目錄名不知道害死了多少人。

    `rsync -av --progress $dir1 $dir2`;

    `rsync -av --progress "$dir1" "$dir2"`;
    代替。

    其實 `` 雖然用著方便,
    但不適合內插變量。
    有變量作為參數的情況下,建議用 system。

    此是解決那樓主的問題,可以本來就沒有空格的問題,沒解決到我的問題。仔細思索。

    機子里有幾個rsync服務,我部署的時候是復制相關的配置,rsync服務端口沒改,子機同步這個服務的時候(子機同步端口與rsync一致,是錯的,重復的),然后做同步的時候出現上面的問題。改了其它端口后就可以。

    總的來講,還是自己對linux了解不多。
    posted @ 2008-09-02 16:14 流浪汗 閱讀(6521) | 評論 (0)編輯 收藏
    用unzip

    unzip myfile.zip
    posted @ 2008-09-02 16:03 流浪汗 閱讀(824) | 評論 (0)編輯 收藏
    上一篇記錄了本機模式我虛擬分布模式。http://www.tkk7.com/chenlb/archive/2008/08/11/221311.html

    現我在虛擬機里開三臺機子,分別命名為:master(172.16.249.210),slave-1(172.16.249.211),slave-2(172.16.249.212)。

    master可以無密碼登錄到slave機。
    每臺機子都匹配ip對應名。
    127.0.0.1       localhost       localhost

    172.16.249.210  master
    172.16.249.211  slave-1
    172.16.249.212  slave-2

    修改conf/masters文件和conf/slaves文件。
    conf/masters文件:
    master

    conf/slaves文件:
    slave-1
    slave-
    2

    格式化后可以啟動了:
    [chenlb@master hadoop-0.17.1]$ bin/start-all.sh 


    參考資料:
    http://hadoop.apache.org/core/docs/r0.17.1/quickstart.html
    http://hadoop.apache.org/core/docs/r0.17.1/cluster_setup.html
    posted @ 2008-08-11 15:45 流浪汗 閱讀(798) | 評論 (0)編輯 收藏

     

    Required Software

    1. JavaTM 1.5.x
    2. ssh與sshd

    如果沒有安裝請自行安裝。我以CentOS 4.6為例。

    下載hadoop,http://apache.mirror.phpchina.com/hadoop/core/ 我下載的是0.17.1版本。

    解壓hadoop-0.17.1.tar.gz,然后conf/hadoop-env.sh 設置JAVA_HOME ,我是可JAVA_HOME 去注釋,值自己的路徑。如:

    export JAVA_HOME=/usr/java/jdk1.6.0_06

    如果不設置啟動后用不了。

    先從簡單開始。

    1、Local (Standalone) Mode ,叫單機模式。

    [chenlb@master hadoop-0.17.1]$ bin/hadoop jar hadoop-0.17.1-examples.jar grep conf output 'dfs[a-z.]+'

     

    [chenlb@master hadoop-0.17.1]$ cat output/*


    如果,正??梢钥吹絻热?。像這樣。

    3       dfs.
    3       dfs.class
    2       dfs.period
    2       dfs.replication
    ...    ...

    2、Pseudo-Distributed Mode,虛擬分布模式。
    vi conf/hadoop-site.xml
    <configuration>
    <property>
            
    <name>fs.default.name</name>
            
    <value>hdfs://master:9000/</value>
    </property>
    <property>
            
    <name>mapred.job.tracker</name>
            
    <value>hdfs://master:9001/</value>
    </property>
    <property>
            
    <name>dfs.replication</name>
            
    <value>1</value>
    </property>
    <property>
            
    <name>hadoop.tmp.dir</name>
            
    <value>/home/chenlb/hadoop-0.17.1/tmp/</value>
    </property>
    </configuration>

    在/etc/hosts里添加本機ip對應master,例如我的:172.16.249.210    master
    保證可以無密碼登錄。請看那一篇文章:http://www.tkk7.com/chenlb/archive/2008/07/03/212293.html

    用ssh localhost試一下是否免密碼登錄。

    格式化分布式文件系統:
    [chenlb@master hadoop-0.17.1]$ bin/hadoop namenode -format

    啟動Hadoop:
    [chenlb@master hadoop-0.17.1]$ bin/start-all.sh 

    默認可以在${HADOOP_HOME}/logs里看到日志。

    可以用web看瀏覽NameNode和JobTracker
  • NameNode - http://localhost:50070/
  • JobTracker - http://localhost:50030/


    把文件放到分布式文件系統里:

    [chenlb@master hadoop-0.17.1]$ bin/hadoop dfs -put conf input

    此時已經在分布文件系統里建立了input文件夾。而conf是本地的文件夾。

    執行示例:
    [chenlb@master hadoop-0.17.1]$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

    這里input和output都是分布式文件系統的的文件夾,而且output在分布式文件系統里不存在,否則報錯(也可以先刪除它bin/badoop dfs -rmr output)。

    耐心等待。結束后可以查看。
    [chenlb@master hadoop-0.17.1]$ bin/hadoop dfs -get output output 
    [chenlb
    @master hadoop-0.17.1]$ cat output/* 

    也可以直接在分布式文件系統里查:
    [chenlb@master hadoop-0.17.1]$ bin/hadoop dfs -cat output/*

    成功運行后可以關閉它了:
    [chenlb@master hadoop-0.17.1]$ bin/stop-all.sh

    我在第2階段,出了些問題:output已經存在,要先刪除它(第二次運行前,可以不用output)。

    下一篇講:Fully-Distributed Mode http://www.tkk7.com/chenlb/archive/2008/08/11/221314.html
  • posted @ 2008-08-11 15:28 流浪汗 閱讀(4951) | 評論 (2)編輯 收藏
    在linux下改了ip地址后,不能立即生效。以前是重啟機器,我覺得這樣很傻,后來知道網卡可以重啟。

    /etc/init.d/network restart
    posted @ 2008-08-11 09:34 流浪汗 閱讀(6069) | 評論 (1)編輯 收藏
    一直想了解分布搜索與索引。Lucene有MultiSearcher,solr1.2的只能有單個索引,現在1.3可以有Distributed Searching這玩意。可以從多個索引里搜索出并合并結果返回給你。這些索引不是replication的,是分割的??梢韵?num方式索引在num臺機器上,然后用solr的shards參數。

    如:
    shards=localhost:8080/use-solr1.3,localhost:9080/use-solr1.3&q=chenlb

    測試后可以返回結果,但合并的時候發了點時間,我的機子上40-60ms,單個搜索基本是0ms

    測試數據是14W結果,分開索引到兩個tomcat里。看了后臺,一個搜索有兩次請求,其中合并的那機子是三次請求。時間可能花在請求里,還有就是合并可能緩存不到。

    官方建議:如果單個solr足夠快的話沒有必要搞Distributed Searching,如果再高點要求可以index repliction。

    當索引很大的時候可能Distributed Searching用的上場, 個人之見。

    參考:http://wiki.apache.org/solr/DistributedSearch
    posted @ 2008-08-07 18:31 流浪汗 閱讀(1014) | 評論 (0)編輯 收藏
    html 與 xml的轉義符不同, xml就只有5個:

    < &lt;
    > &gt;
    & &amp;
    " &quot;
    ' &apos;


    xml沒有&nbsp;
    posted @ 2008-08-06 12:40 流浪汗 閱讀(15414) | 評論 (2)編輯 收藏
    我比較喜歡免安裝版(非安裝版)的mysql,

    下載如: mysql-noinstall-5.0.45-win32.zip

    把它解壓到如: E:/mysql-5.0.45, 當然可以任意位置。

    然后改my-medium.ini文件為my.ini,當然也可以不改名,但要改內容

    basedir="E:/mysql-5.0.45/"

    datadir
    ="E:/mysql-5.0.45/Data/"

    如果上面,最好加個字符集,在[mysqld]和[mysql]下面加
    default-character-set=utf8

    當然可能是其它字符集, 如:gbk

    寫個mysql-startup.bat
    "E:\mysql-5.0.45\bin\mysqld" --defaults-file="E:\mysql-5.0.45\my.ini"

    雙擊mysql-startup.bat即可啟動。

    用mysqladmin關閉mysql服務:
    E:/mysql-5.0.45/bin/mysqladmin -u root shutdown


    ^_^
    posted @ 2008-08-03 16:22 流浪汗 閱讀(3087) | 評論 (1)編輯 收藏
        想讓Tomcat支持ssi,一般是shtml文件。配置比較簡單。

    默認tomcat不支持ssi。

    現以tomcat5.5.x為例。

    改conf/web.xml配置。

    有兩種方式:一是servlet,二是filter。

    servlet方式的:
    <!--
        <servlet>
            <servlet-name>ssi</servlet-name>
            <servlet-class>
              org.apache.catalina.ssi.SSIServlet
            </servlet-class>
            <init-param>
              <param-name>buffered</param-name>
              <param-value>1</param-value>
            </init-param>
            <init-param>
              <param-name>debug</param-name>
              <param-value>0</param-value>
            </init-param>
            <init-param>
              <param-name>expires</param-name>
              <param-value>666</param-value>
            </init-param>
            <init-param>
              <param-name>isVirtualWebappRelative</param-name>
              <param-value>0</param-value>
            </init-param>
            <load-on-startup>4</load-on-startup>
        </servlet>
    -->

    <!--
        <servlet-mapping>
            <servlet-name>ssi</servlet-name>
            <url-pattern>*.shtml</url-pattern>
        </servlet-mapping>
    -->

    找到上面的內容,去掉注釋。

    filter方式:
    <!--
        <filter>
            <filter-name>ssi</filter-name>
            <filter-class>
              org.apache.catalina.ssi.SSIFilter
            </filter-class>
            <init-param>
              <param-name>contentType</param-name>
              <param-value>text/x-server-parsed-html(;.*)?</param-value>
            </init-param>
            <init-param>
              <param-name>debug</param-name>
              <param-value>0</param-value>
            </init-param>
            <init-param>
              <param-name>expires</param-name>
              <param-value>666</param-value>
            </init-param>
            <init-param>
              <param-name>isVirtualWebappRelative</param-name>
              <param-value>0</param-value>
            </init-param>
        </filter>
    -->

    <!--
        <filter-mapping>
            <filter-name>ssi</filter-name>
            <url-pattern>*.shtml</url-pattern>
        </filter-mapping>
    -->

    同樣是去掉上面的注釋。但是filter方式的還要加mime-mapping=text/x-server-parsed-html
    <!--
        <mime-mapping>
            <extension>shtml</extension>
            <mime-type>text/x-server-parsed-html</mime-type>
        </mime-mapping>
    -->

    去掉mime-mapping的shtml注釋。

    在test的web試下:
    index.shtml
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml">
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <title>ssi 示例</title>
    </head>

    <body>
    ssi area 
    <!--#include virtual="ssi.html" -->
    <p>

            footer 
    <!--#include virtual="footer.html" --><p>
            
            
    <p>
                
    <!--#config timefmt="%D" -->
            Me last modified 
    <!--#echo var="LAST_MODIFIED" -->

    </body>
    </html>

    footer.html
    <ul>
        
    <li>index</li>
        
    <li>about</li>
    </ul>

    ssi.html
    <p>this is ssi.html file</p><p>
    <p>中文</p>
    ssi.html file end
    <p/>


    現在可以,http://localhost:8080/test/index.shtml 有結果了。
    posted @ 2008-07-27 21:55 流浪汗 閱讀(1377) | 評論 (0)編輯 收藏
        有一個項目的代碼提交是用https協議的。一提交的時候出現如下錯誤:

    svn: PROPFIND request failed on '/svn/trunk/xxx'
    svn: PROPFIND of '/svn/trunk/xxx': Could not create SSL connection through proxy server (https://.

        這下郁悶,看了下eclipse設置,又沒有設代理。google一下,看到一個郵件列表,有一個字眼“TSVN”。哦,快去看看TortoiseSVN。任意一個目錄右擊->TortoiseSVN->設置->網絡,有學校時用的代理。去掉一試,好了沒錯了。

        前端時間用Subclipse時,一定要安裝TortoiseSVN才可保存密碼,現在又TortoiseSVN的設置Subclipse又有效。帶著探索心去看eclipse的設置。Team->svn那里有一個選項:

    SVN接口:
    1.JavaHL(JNI)
    2.SVNkit(純Java)

    原來選的是JavaHL(JNI),現在明白了。改用SVNkit試一下,現在的subclipse不會理TortoiseSVN了。

    posted @ 2008-07-26 13:34 流浪汗 閱讀(3713) | 評論 (0)編輯 收藏
    有些windows操作系統被人"強奸"過的, 導致語言欄變灰色,無法顯示,在任務欄里不顯示.

    一般是ctfmon.exe問題. 看下C:\windows\system32\ctfmon.exe文件. 沒有就下載

    http://www.tkk7.com/Files/chenlb/ctfmon_xp.rar

    安裝它,

    然后在: 控制面板->區域和語言選項->語言->詳細信息->高級->去掉"關閉高級文字服務"

    即可.

    那一種(百度知道): http://zhidao.baidu.com/question/31477300.html

    看你是使用2003 還是XP系統

    要是XP系統的話了就設置兩個地方
    1.開始,運行,msconfig,勾選ctfmon.exe

    控制面板--區域和語言選項--語言--詳細信息--高級--不要選“關閉高級文字服務”
    2.開始--控制面板--日期、時間、語言和區域設置--區域和語言選擇--語言--詳細信息--語言欄(選擇在桌面顯示語言欄 還有 選擇:在任務欄中顯示其他語言欄圖標)

    參考: http://www.nvyouwm.cn/html/jishuwendang/huanjingpeizhi/20080602/266_2.html
    posted @ 2008-07-12 13:26 流浪汗 閱讀(7565) | 評論 (9)編輯 收藏
    setTimeout(script,millisecond); 是從現在算起多少微秒后運行該代碼(只運行一次)

    setInterval(script,millisecond);  是每隔多少微秒運行一次代碼

    示例:
    1.執行一次
    <span id="time"></span> 秒
    <script type="text/javascript">
    var i = 1;
    var txt = document.getElementById("time");
    function addT(i) {
    txt.innerHTML
    =i;
    }
    setTimeout("addT(i++)",1000);
    </script>


    2.復制執行
    <span id="time">3</span> 秒
    <script type="text/javascript">
    var i = 1;
    var txt = document.getElementById("time");
    function addT(i) {
    txt.innerHTML
    =i;
    }
    setInterval(
    "addT(i++)",1000); 
    </script>

    setTimeout也可以做成重復執行
    <span id="time"></span> 秒
    <script type="text/javascript">
    var i = 1;
    var txt = document.getElementById("time");
    function addT(i) {
    txt.innerHTML
    =i;
    setTimeout(
    "addT(i++)",1000);
    }
    addT(i);
    </script>
    posted @ 2008-07-10 21:36 流浪汗 閱讀(1080) | 評論 (0)編輯 收藏

    linux下的很軟件都是 tar.gz后綴的,解壓久了不用就忙了,寫備忘?,F我知的直接解壓方法有兩種

    1.gunzip與tar

    gunzip < *.tar.gz | tar -xvf -

    2.只用tar
    tar -zxvf *.tar.gz

    說明:
    z表示:通過gzip指令處理備份文件
    x表示:解壓
    v表示:輸出解壓過程信息
    f表示:指定備份文件
    posted @ 2008-07-08 11:14 流浪汗 閱讀(2532) | 評論 (0)編輯 收藏
    solr 1.3 還沒有正式發布,在這里記錄下從solr 1.2的主要改動:
    1. solrj     solr的java客戶端,可以嵌入搜索(不是http/xml交互)
    2. multi-core     多核心——1個web應用可以用多種的搜索服務,即可以多個schema.xml
    3. search components    搜索組件。
    4. distributed search    分布式搜索。

    api的變動:

    1. org.apache.util 包下的大部分類移到org.apache.common.util包下面。
    2. org.apache.solr.request包下面的很多類移到org.apache.solr.common.params包下面。
    3. org.apache.solr.request.StandardRequestHandler 類改為 org.apache.solr.handler.StandardRequestHandler,同時它改為org.apache.solr.handler.SearchHandler的子類
    4. org.apache.solr.request.DisMaxRequestHandler 類改為 org.apache.solr.handler.DisMaxRequestHandler,同時不推薦在 StandardRequestHandler 的初始參數用'defType=dismax' 。
    posted @ 2008-07-08 10:20 流浪汗 閱讀(452) | 評論 (0)編輯 收藏
        solr 分布式其實是分發,這概念像Mysql的復制。所有的索引的改變都在主服務器里,所有的查詢都在從服務里。從服務器不斷地(定時)從主服務器拉內容,以保持數據一致。

    先描述下我的環境:
    solr-master(192.168.1.181), solr-slave(192.168.1.155), jdke1.6.0_06, tomcat-5.5.26, solr-1.2 
    tomcat_home在 /home/chenlb/tomcat-5.5.26
    solr_home在 /home/chenlb/solr-home
    solr解壓后的目錄 /home/chenlb/solr-1.2.0
    最好兩機可以ssh無密碼交互,ssh無密碼登錄請看:http://www.tkk7.com/chenlb/archive/2008/07/03/212293.html

        solr的分發是用rsync的。
        快照與分發過程:

    1.snapshooter 命令在主服務器產生快照。一般在commit和optimize之后被solr調用。

    2.snappuller 命令在從服務器運行,所做的事是從主服務器拉最新的快照。 用rsync的daemon模式來運行可以獲得更好的性能與更底的CPU利用率。

    3.snapinstaller 命令在從服務器運行,當從服務器從主服務器拉完快照后才執行。它會通知本地Solr服務器打開一個新的index reader,然后預熱這個新index reader的緩存,此時有請求,原來的index reader繼續為這此請求服務。一但預熱完成,Solr 啟用新的index reader,舊的被消亡。

        Solr 的Distribution(分發) 在Scripts文件里記錄。在solr_home/conf/scripts.conf文件里。

    我現在這樣配置:
    user=chenlb
    solr_hostname
    =localhost
    solr_port
    =8080
    rsyncd_port
    =18080
    data_dir
    =/home/chenlb/solr-home/data
    webapp_name
    =solr
    master_host
    =192.168.1.181
    master_data_dir
    =/home/chenlb/solr-home/data
    master_status_dir
    =/home/chenlb/solr-home/logs

    上面的配置兩機都一樣。

    1.安裝好solr后啟動它們,怎樣在tomcat安裝solr請看:http://www.tkk7.com/chenlb/archive/2008/03/25/188459.html
    [chenlb@solr-master ~]$ ./tomcat-5.5.26/bin/startup.sh

    啟用且啟動rsync
    [chenlb@solr-master ~]$ ./solr-home/bin/rsyncd-enable -u chenlb -v
    [chenlb@solr-master ~]$ ./solr-home/bin/rsyncd-start -u chenlb -v


    [chenlb@solr-slave ~]$ ./tomcat-5.5.26/bin/startup.sh

    2.solr-master
    先修改post.sh
    [chenlb@solr-master ~]$ cd solr-1.2.0/example/exampledocs/
    [chenlb@solr
    -master exampledocs]$ vi post.sh
    [chenlb@solr
    -master exampledocs]$
    #把http://localhost:8389/solr/update改下面的
    http://localhost:8080/solr/update

    提交數據
    [chenlb@solr-master exampledocs]$ ./post.sh *.xml

    產生快照
    [chenlb@solr-master ~]$ ./solr-home/bin/snapshooter -u chenlb -v

    說明:由于<listener event="postCommit" class="solr.RunExecutableListener">...</listener>沒有設置成功(出現java.io.IOException: Cannot run program "snapshooter" (in directory "solr/bin"): java.io.IOException: error=2, No such file or directory,現在還沒解決),可以只能手動生成快照(當然也可以cron)

    3.solr-slave
    啟用快照下拉
    [chenlb@solr-slave ~]$ ./solr-home/bin/snappuller-enable -u chenlb -v

    拉快照
    [chenlb@solr-slave ~]$ ./solr-home/bin/snappuller -u chenlb -v

    安裝
    [chenlb@solr-slave ~]$ ./solr-home/bin/snapinstaller -u chenlb -v


    現在可以在solr-slave里看結果了:
    http://192.168.1.155:8080/solr/select?q=solr
    http://192.168.1.181:8080/solr/select?q=solr

    看結果是否一樣。
    posted @ 2008-07-04 16:49 流浪汗 閱讀(3166) | 評論 (0)編輯 收藏

        由于svn服務器的調整,很多項目里的鏈接還是舊的服務器,又由于項目里有些東西還沒有提交,所不能刪除svn的元數據,怎樣才能適應svn的遷移呢?

        我的項目全在Eclipse下面,用subclipse客戶端,在subclipse找了好久沒找到此功能,最后在TortoiseSVN找,找到了右擊本地與svn相連的目錄-->"TortoiseSVN"-->"Reloate..."在to URL那改就行了。^_^
     
        subclipse遠不如TortoiseSVN強大,且它還依賴TortoiseSVN——如果沒有TortoiseSVN,subclipse不能保存密碼。

    posted @ 2008-07-04 11:06 流浪汗 閱讀(1525) | 評論 (1)編輯 收藏
    ssh 無密碼登錄要使用公鑰與私鑰。linux下可以用用ssh-keygen生成公鑰/私鑰對,下面我以CentOS為例。

    有機器A(192.168.1.155),B(192.168.1.181)。現想A通過ssh免密碼登錄到B。

    1.在A機下生成公鑰/私鑰對。
    [chenlb@A ~]$ ssh-keygen -t rsa -''

    -P表示密碼,-P '' 就表示空密碼,也可以不用-P參數,這樣就要三車回車,用-P就一次回車。
    它在/home/chenlb下生成.ssh目錄,.ssh下有id_rsa和id_rsa.pub。

    2.把A機下的id_rsa.pub復制到B機下,在B機的.ssh/authorized_keys文件里,我用scp復制。
    [chenlb@A ~]$ scp .ssh/id_rsa.pub chenlb@192.168.1.181:/home/chenlb/id_rsa.pub 
    chenlb@
    192.168.1.181's password:
    id_rsa.pub                                    100%  223     0.2KB/s   00:00

    由于還沒有免密碼登錄的,所以要輸入密碼。

    3.B機把從A機復制的id_rsa.pub添加到.ssh/authorzied_keys (打錯了,使用下面的代碼塊)文件里。
    [chenlb@B ~]$ cat id_rsa.pub >> .ssh/authorized_keys
    [chenlb@B 
    ~]$ chmod 600 .ssh/authorized_keys

    authorized_keys的權限要是600

    4.A機登錄B機。
    [chenlb@A ~]$ ssh 192.168.1.181
    The authenticity of host 
    '192.168.1.181 (192.168.1.181)' can't be established.
    RSA key fingerprint is 00:a6:a8:87:eb:c7:40:10:39:cc:a0:eb:50:d9:6a:5b.
    Are you sure you want to 
    continue connecting (yes/no)? yes
    Warning: Permanently added 
    '192.168.1.181' (RSA) to the list of known hosts.
    Last login: Thu Jul  
    3 09:53:18 2008 from chenlb
    [chenlb@B 
    ~]$

    第一次登錄是時要你輸入yes。

    現在A機可以無密碼登錄B機了。

    小結:登錄的機子可有私鑰,被登錄的機子要有登錄機子的公鑰。這個公鑰/私鑰對一般在私鑰宿主機產生。上面是用rsa算法的公鑰/私鑰對,當然也可以用dsa(對應的文件是id_dsa,id_dsa.pub)

    想讓A,B機無密碼互登錄,那B機以上面同樣的方式配置即可。

    參考:SSH-KeyGen 的用法 http://blog.163.com/chen98_2006@126/blog/static/158584272007101862513886/
    posted @ 2008-07-03 12:19 流浪汗 閱讀(13739) | 評論 (3)編輯 收藏
    我用CentOS為例。

    簡介:
        cron來源于希臘單詞chronos(意為“時間”),是linux系統下一個自動執行指定任務的程序。例如,你想在每晚睡覺期間創建某些文件或文件夾的備份,就可以用cron來自動執行。

    CentOS的cron默認是開機啟動的,如果沒有開機啟動可以用chkconfig
    [root@chenlb-pc ~]# chkconfig crond on

    查看crond是否開機啟動
    [root@chenlb-pc ~]# chkconfig --list crond
    crond           0:關閉  1:關閉  2:啟用  3:啟用  4:啟用  5:啟用  6:關閉

    說明已經是開機啟動。

    cron是執行crontab里的任務,所以要把任務加到crontab里。

    1.查看當前用戶的任務。
    [chenlb@chenlb-pc ~]$ crontab -l
    no crontab 
    for chenlb

    現在還沒有任務,可以用crontab -e來編輯任務(可以直接輸入crontab是新建,然后回車,Ctrl+D保存,注意這樣會覆蓋以前的,不建議直接用crontab),然后再新的文件里輸入以下內容。

    2.編輯任務
    [chenlb@chenlb-pc ~]$ crontab -e

    */1 * * * * echo `date` >> /home/chenlb/cron-log.txt

    上面的意思是指每一分鐘打印時間放到/home/chenlb/cron-log.txt文件里,過一分鐘后看是否有效,如下命令。
    [chenlb@chenlb-pc ~]$ tail /home/chenlb/cron-log.txt
    Wed Jul 
    2 15:43:01 CST 2008

    3.刪除任務
    [chenlb@chenlb-pc ~]$ crontab -r


    說明:如果是root除了有以上的功能,還有-u參數為用戶查看、編輯、刪除任務,如用chenlb編輯任務。
    [root@chenlb-pc ~]# crontab -u chenlb -e

    解說下任務的語法:
        min hour day month week user command

    忽略用“*”,每多少的用“/多少”,多個的用“,”,到關系的用“-”

    ---------------------------------來自htmlor's blog的示例----------------------------------------------

    以下是cron語句中的字段與字段說明:

    字段 說明
    1 分鐘(0-59)
    2 小時(2-24)
    3 日期(1-31)
    4 月份(1-12;或英文縮寫Jan、Feb等)
    5 周幾(0-6,0為周日;或單詞縮寫Sun、Mon等)
    6 用戶名(執行命令時以此用戶的身份)
    7 要執行的命令(路徑)

    現在來看第一行:

    12 3 * * * root tar czf /usr/local/backups/daily/etc.tar.gz /etc >> /dev/null 2>&1

    這條語句將在每天的凌晨3點12分(03:12)運行 tar czf /usr/local/backups/daily/etc.tar.gz /etc 命令。>> /dev/null 2>&1 表示把所有標準輸出發送到 /dev/null(linux的回收站),把標準錯誤輸出(2)發送到和標準輸出(1)同樣的地方(即 /dev/null)。運行這行命令將不會產生任何輸出。

    這條語句可以變得稍微復雜一點:

    30 15 13 6 1 * root tar czf /usr/local/backups/daily/etc.tar.gz /etc >> /dev/null 2>&1

    它將在6月13日周一的15:30運行 tar czf /usr/local/backups/daily/etc.tar.gz /etc 命令。

    以下語句可以達到同樣的效果:

    30 15 13 Jun Mon * root tar czf /usr/local/backups/daily/etc.tar.gz /etc >> /dev/null 2>&1

    如果你想以用戶joey的身份每小時的第15分鐘運行某個程序,可以使用:

    15 * * * * joey /usr/bin/somecommand >> /dev/null 2>&1

    其中的星號(*)是通配符,表示cron將忽略這個字段。

    如果你想每兩小時就運行某個程序,可以在小時字段里使用 */2。它將會在2點,4點,6點……22點,24點運行。具體語句如下:

    0 */2 * * * joey /usr/bin/somecommand >> /dev/null 2>&1

    cron語句中還可以使用逗號(,)來指定多個時間。例如你想在每小時的15分和30分運行某個程序,可以在分鐘字段使用 15,30

    15,30 * * * * joey /usr/bin/somecommand >> /dev/null 2>&1

    如果你想在每月的第一周(即1號到7號)每天的指定時間運行某個程序,可以在日期字段使用 1-7

    15,30 */2 1-7 * * joey /usr/bin/somecommand >> /dev/null 2>&1

    這條語句將在每月的第1-7日每兩小時的15分和30分(02:15,02:30……22: 15,22:30等)運行 /usr/bin/somecommand 命令。

    如果你想在每天的16:18執行一個腳本集合,可以把所有要執行的腳本放到一個目錄中(如 /home/username/cron),可以使用:

    18 16 * * * root run-parts /home/username/cron >> /dev/null 2>&1

    如果你想保存某個程序的輸出結果, 可以把 >> /dev/null 2>&1 替換為 >> /home/user/somecommand.log 2>&1 。



    參考:http://blog.htmlor.com/2006/07/25/cron_guide/
    posted @ 2008-07-02 16:23 流浪汗 閱讀(5388) | 評論 (0)編輯 收藏
     Solr 涉及的術語,簡單介紹下:
    • Auto-warming(自動預熱) 當打開一個新的緩存時,它把在舊緩存里命中較高的鍵/值添加到新的緩存里。
    • Constraint(限制) 限制對象集的方法。
    • Facet(層面) 對象集的一個方面或特定的一部分,這可以用來資源分類。
    • Filter(過慮器) 它由上下方決定,可能是:
      1. Constraint(限制)的那稱呼。
      2. 限制查詢結果的"fq"參數。
      3. 涉及特定的Lucene的"Filter"類。
    • Solr Home Dir(Solr主目錄) 又叫Solr Home Directory或Solr Home,它是Solr查找配置文件、數據、插件的主要目錄,默認是./solr目錄,可以JNDI配置solr/home屬性,也可配置系統的solr.solr.home屬性。
    • Static warming(靜態預熱) 當newSearcher 和 firstSearcher 的事件監聽器強逼預熱事件時,Solr會根據solrconfig.xml配置里的"static"查詢來填充緩存。

    來源:http://wiki.apache.org/solr/SolrTerminology

     

    說的不對的地方,希望指出,一起學習。

    posted @ 2008-06-27 13:29 流浪汗 閱讀(470) | 評論 (0)編輯 收藏

        兩字符串相似度計算方法有好多,現對基于編距的算法的相似度計算自己總結下。

     

        簡單介紹下Levenshtein Distance(LD):LD 可能衡量兩字符串的相似性。它們的距離就是一個字符串轉換成那一個字符串過程中的添加、刪除、修改數值。

        舉例:

    • 如果str1="test",str2="test",那么LD(str1,str2) = 0。沒有經過轉換。
    • 如果str1="test",str2="tent",那么LD(str1,str2) = 1。str1的"s"轉換"n",轉換了一個字符,所以是1。

    如果它們的距離越大,說明它們越是不同。

     

         Levenshtein distance最先是由俄國科學家Vladimir Levenshtein在1965年發明,用他的名字命名。不會拼讀,可以叫它edit distance(編輯距離)。

     

        Levenshtein distance可以用來:

    • Spell checking(拼寫檢查)
    • Speech recognition(語句識別)
    • DNA analysis(DNA分析)
    • Plagiarism detection(抄襲檢測)

    LD用m*n的矩陣存儲距離值。算法大概過程:

    1. str1或str2的長度為0返回另一個字符串的長度。
    2. 初始化(n+1)*(m+1)的矩陣d,并讓第一行和列的值從0開始增長。
    3. 掃描兩字符串(n*m級的),如果:str1[i] == str2[j],用temp記錄它,為0。否則temp記為1。然后在矩陣d[i][j]賦于d[i-1][j]+1 、d[i][j-1]+1、d[i-1][j-1]+temp三者的最小值。
    4. 掃描完后,返回矩陣的最后一個值即d[n][m]

    最后返回的是它們的距離。怎么根據這個距離求出相似度呢?因為它們的最大距離就是兩字符串長度的最大值。對字符串不是很敏感。現我把相似度計算公式定為1-它們的距離/字符串長度最大值。

     

        源碼:

    package com.chenlb.algorithm;

    /**
     * 編輯距離的兩字符串相似度
     * 
     * 
    @author chenlb 2008-6-24 下午06:41:55
     
    */
    public class Similarity {

        
    private int min(int one, int two, int three) {
            
    int min = one;
            
    if(two < min) {
                min 
    = two;
            }
            
    if(three < min) {
                min 
    = three;
            }
            
    return min;
        }
        
        
    public int ld(String str1, String str2) {
            
    int d[][];    //矩陣
            int n = str1.length();
            
    int m = str2.length();
            
    int i;    //遍歷str1的
            int j;    //遍歷str2的
            char ch1;    //str1的
            char ch2;    //str2的
            int temp;    //記錄相同字符,在某個矩陣位置值的增量,不是0就是1
            if(n == 0) {
                
    return m;
            }
            
    if(m == 0) {
                
    return n;
            }
            d 
    = new int[n+1][m+1];
            
    for(i=0; i<=n; i++) {    //初始化第一列
                d[i][0= i;
            }
            
    for(j=0; j<=m; j++) {    //初始化第一行
                d[0][j] = j;
            }
            
    for(i=1; i<=n; i++) {    //遍歷str1
                ch1 = str1.charAt(i-1);
                
    //去匹配str2
                for(j=1; j<=m; j++) {
                    ch2 
    = str2.charAt(j-1);
                    
    if(ch1 == ch2) {
                        temp 
    = 0;
                    } 
    else {
                        temp 
    = 1;
                    }
                    
    //左邊+1,上邊+1, 左上角+temp取最小
                    d[i][j] = min(d[i-1][j]+1, d[i][j-1]+1, d[i-1][j-1]+temp);
                }
            }
            
    return d[n][m];
        }
        
        
    public double sim(String str1, String str2) {
            
    int ld = ld(str1, str2);
            
    return 1 - (double) ld / Math.max(str1.length(), str2.length()); 
        }
        
        
    public static void main(String[] args) {
            Similarity s 
    = new Similarity();
            String str1 
    = "chenlb.blogjava.net";
            String str2 
    = "chenlb.javaeye.com";
            System.out.println(
    "ld="+s.ld(str1, str2));
            System.out.println(
    "sim="+s.sim(str1, str2));
        }
    }

    不知sim方法中的公式是合理,個人認為差強人意思,^_^

     

    參考: http://www.merriampark.com/ld.htm

    posted @ 2008-06-25 10:08 流浪汗 閱讀(3833) | 評論 (2)編輯 收藏
    主站蜘蛛池模板: 久久精品成人免费看| 国产真人无码作爱视频免费| 人人爽人人爽人人片A免费| 一级a性色生活片久久无少妇一级婬片免费放| 免费无遮挡无码视频在线观看 | 搜日本一区二区三区免费高清视频| ww在线观视频免费观看w| 国产精品区免费视频| 日本亚洲免费无线码| 又黄又爽无遮挡免费视频| 久久精品国产亚洲网站| 亚洲三级在线免费观看| 免费看黄福利app导航看一下黄色录像| aaa毛片视频免费观看| 国产高清不卡免费在线| 免费大黄网站在线观| 亚洲情a成黄在线观看动漫尤物| 亚洲导航深夜福利| 黄网站色视频免费看无下截| 国产一区二区三区免费| 免费观看的av毛片的网站| 亚洲日产韩国一二三四区| 亚洲伊人久久大香线焦| 一级做受视频免费是看美女| 美丽的姑娘免费观看在线播放| 日本人的色道www免费一区| 亚洲av午夜福利精品一区人妖| 亚洲一区在线视频观看| 一出一进一爽一粗一大视频免费的| 2015日韩永久免费视频播放| 亚洲AV中文无码乱人伦| 亚洲欧洲精品国产区| 国产日韩AV免费无码一区二区三区| 又粗又大又黑又长的免费视频| 亚洲午夜激情视频| 国产亚洲中文日本不卡二区| 国产色爽免费无码视频| 日韩一区二区免费视频| 一区二区三区亚洲| 中美日韩在线网免费毛片视频| 午夜宅男在线永久免费观看网|