oracle 可以用判斷某列存儲的是否是數字的 asc 碼函數

posted @ 2010-11-24 16:25 cc 閱讀(247) | 評論 (0) | 編輯收藏

select distinct ascii (字段) from 表

posted @ 2009-07-29 16:48 cc 閱讀(214) | 評論 (0) | 編輯收藏

文檔選項

		打印本頁
		將此頁作為電子郵件發送

級別：中級

申毅 (shenyyi@cn.ibm.com), 軟件工程師, IBM 中國軟件開發中心

2008 年 5 月 29 日

想讓進程在斷開連接后依然保持運行？如果該進程已經開始運行了該如何補救？如果有大量這類需求如何簡化操作？

我們經常會碰到這樣的問題，用 telnet/ssh 登錄了遠程的 Linux 服務器，運行了一些耗時較長的任務，結果卻由于網絡的不穩定導致任務中途失敗。如何讓命令提交后不受本地關閉終端窗口/網絡斷開連接的干擾呢？下面舉了一些例子，您可以針對不同的場景選擇不同的方式來處理這個問題。

nohup/setsid/&

場景：

如果只是臨時有一個命令需要長時間運行，什么方法能最簡便的保證它在后臺穩定運行呢？

hangup 名稱的來由
在 Unix 的早期版本中，每個終端都會通過 modem 和系統通訊。當用戶 logout 時，modem 就會掛斷（hang up）電話。同理，當 modem 斷開連接時，就會給終端發送 hangup 信號來通知其關閉所有子進程。

解決方法：

我們知道，當用戶注銷（logout）或者網絡斷開時，終端會收到 HUP（hangup）信號從而關閉其所有子進程。因此，我們的解決辦法就有兩種途徑：要么讓進程忽略 HUP 信號，要么讓進程運行在新的會話里從而成為不屬于此終端的子進程。

1. nohup

nohup 無疑是我們首先想到的辦法。顧名思義，nohup 的用途就是讓提交的命令忽略 hangup 信號。讓我們先來看一下 nohup 的幫助信息：

NOHUP(1)                        User Commands                        NOHUP(1)
                        NAME
                        nohup - run a command immune to hangups, with output to a non-tty
                        SYNOPSIS
                        nohup COMMAND [ARG]...
                        nohup OPTION
                        DESCRIPTION
                        Run COMMAND, ignoring hangup signals.
                        --help display this help and exit
                        --version
                        output version information and exit

可見，nohup 的使用是十分方便的，只需在要處理的命令前加上 nohup 即可，標準輸出和標準錯誤缺省會被重定向到 nohup.out 文件中。一般我們可在結尾加上"&"來將命令同時放入后臺運行，也可用">filename 2>&1"來更改缺省的重定向文件名。

nohup 示例

                        [root@pvcent107 ~]# nohup ping www.ibm.com &
                        [1] 3059
                        nohup: appending output to `nohup.out'
                        [root@pvcent107 ~]# ps -ef |grep 3059
                        root      3059   984  0 21:06 pts/3    00:00:00 ping www.ibm.com
                        root      3067   984  0 21:06 pts/3    00:00:00 grep 3059
                        [root@pvcent107 ~]#

2。setsid

nohup 無疑能通過忽略 HUP 信號來使我們的進程避免中途被中斷，但如果我們換個角度思考，如果我們的進程不屬于接受 HUP 信號的終端的子進程，那么自然也就不會受到 HUP 信號的影響了。setsid 就能幫助我們做到這一點。讓我們先來看一下 setsid 的幫助信息：

SETSID(8)                 Linux Programmer’s Manual                 SETSID(8)
                        NAME
                        setsid - run a program in a new session
                        SYNOPSIS
                        setsid program [ arg ... ]
                        DESCRIPTION
                        setsid runs a program in a new session.

可見 setsid 的使用也是非常方便的，也只需在要處理的命令前加上 setsid 即可。

setsid 示例

                        [root@pvcent107 ~]# setsid ping www.ibm.com
                        [root@pvcent107 ~]# ps -ef |grep www.ibm.com
                        root     31094     1  0 07:28 ?        00:00:00 ping www.ibm.com
                        root     31102 29217  0 07:29 pts/4    00:00:00 grep www.ibm.com
                        [root@pvcent107 ~]#

值得注意的是，上例中我們的進程 ID(PID)為31094，而它的父 ID（PPID）為1（即為 init 進程 ID），并不是當前終端的進程 ID。請將此例與nohup 例中的父 ID 做比較。

3。&

這里還有一個關于 subshell 的小技巧。我們知道，將一個或多個命名包含在“()”中就能讓這些命令在子 shell 中運行中，從而擴展出很多有趣的功能，我們現在要討論的就是其中之一。

當我們將"&"也放入“()”內之后，我們就會發現所提交的作業并不在作業列表中，也就是說，是無法通過jobs來查看的。讓我們來看看為什么這樣就能躲過 HUP 信號的影響吧。

subshell 示例

                        [root@pvcent107 ~]# (ping www.ibm.com &)
                        [root@pvcent107 ~]# ps -ef |grep www.ibm.com
                        root     16270     1  0 14:13 pts/4    00:00:00 ping www.ibm.com
                        root     16278 15362  0 14:13 pts/4    00:00:00 grep www.ibm.com
                        [root@pvcent107 ~]#

從上例中可以看出，新提交的進程的父 ID（PPID）為1（init 進程的 PID），并不是當前終端的進程 ID。因此并不屬于當前終端的子進程，從而也就不會受到當前終端的 HUP 信號的影響了。

回頁首

disown

場景：

我們已經知道，如果事先在命令前加上 nohup 或者 setsid 就可以避免 HUP 信號的影響。但是如果我們未加任何處理就已經提交了命令，該如何補救才能讓它避免 HUP 信號的影響呢？

解決方法：

這時想加 nohup 或者 setsid 已經為時已晚，只能通過作業調度和 disown 來解決這個問題了。讓我們來看一下 disown 的幫助信息：

disown [-ar] [-h] [jobspec ...]
                        Without options, each jobspec is  removed  from  the  table  of
                        active  jobs.   If  the -h option is given, each jobspec is not
                        removed from the table, but is marked so  that  SIGHUP  is  not
                        sent  to the job if the shell receives a SIGHUP.  If no jobspec
                        is present, and neither the -a nor the -r option  is  supplied,
                        the  current  job  is  used.  If no jobspec is supplied, the -a
                        option means to remove or mark all jobs; the -r option  without
                        a  jobspec  argument  restricts operation to running jobs.  The
                        return value is 0 unless a jobspec does  not  specify  a  valid
                        job.

可以看出，我們可以用如下方式來達成我們的目的。

靈活運用 CTRL-z
在我們的日常工作中，我們可以用 CTRL-z 來將當前進程掛起到后臺暫停運行，執行一些別的操作，然后再用 fg 來將掛起的進程重新放回前臺（也可用 bg 來將掛起的進程放在后臺）繼續運行。這樣我們就可以在一個終端內靈活切換運行多個任務，這一點在調試代碼時尤為有用。因為將代碼編輯器掛起到后臺再重新放回時，光標定位仍然停留在上次掛起時的位置，避免了重新定位的麻煩。

用disown -h jobspec 來使某個作業忽略HUP信號。
用disown -ah 來使所有的作業都忽略HUP信號。
用disown -rh 來使正在運行的作業忽略HUP信號。

需要注意的是，當使用過 disown 之后，會將把目標作業從作業列表中移除，我們將不能再使用jobs來查看它，但是依然能夠用ps -ef查找到它。

但是還有一個問題，這種方法的操作對象是作業，如果我們在運行命令時在結尾加了"&"來使它成為一個作業并在后臺運行，那么就萬事大吉了，我們可以通過jobs命令來得到所有作業的列表。但是如果并沒有把當前命令作為作業來運行，如何才能得到它的作業號呢？答案就是用 CTRL-z（按住Ctrl鍵的同時按住z鍵）了！

CTRL-z 的用途就是將當前進程掛起（Suspend），然后我們就可以用jobs命令來查詢它的作業號，再用bg jobspec 來將它放入后臺并繼續運行。需要注意的是，如果掛起會影響當前進程的運行結果，請慎用此方法。

disown 示例1（如果提交命令時已經用“&”將命令放入后臺運行，則可以直接使用“disown”）

                        [root@pvcent107 build]# cp -r testLargeFile largeFile &
                        [1] 4825
                        [root@pvcent107 build]# jobs
                        [1]+  Running                 cp -i -r testLargeFile largeFile &
                        [root@pvcent107 build]# disown -h %1
                        [root@pvcent107 build]# ps -ef |grep largeFile
                        root      4825   968  1 09:46 pts/4    00:00:00 cp -i -r testLargeFile largeFile
                        root      4853   968  0 09:46 pts/4    00:00:00 grep largeFile
                        [root@pvcent107 build]# logout

disown 示例2（如果提交命令時未使用“&”將命令放入后臺運行，可使用 CTRL-z 和“bg”將其放入后臺，再使用“disown”）

                        [root@pvcent107 build]# cp -r testLargeFile largeFile2
                        [1]+  Stopped                 cp -i -r testLargeFile largeFile2
                        [root@pvcent107 build]# bg %1
                        [1]+ cp -i -r testLargeFile largeFile2 &
                        [root@pvcent107 build]# jobs
                        [1]+  Running                 cp -i -r testLargeFile largeFile2 &
                        [root@pvcent107 build]# disown -h %1
                        [root@pvcent107 build]# ps -ef |grep largeFile2
                        root      5790  5577  1 10:04 pts/3    00:00:00 cp -i -r testLargeFile largeFile2
                        root      5824  5577  0 10:05 pts/3    00:00:00 grep largeFile2
                        [root@pvcent107 build]#

回頁首

screen

場景：

我們已經知道了如何讓進程免受 HUP 信號的影響，但是如果有大量這種命令需要在穩定的后臺里運行，如何避免對每條命令都做這樣的操作呢？

解決方法：

此時最方便的方法就是 screen 了。簡單的說，screen 提供了 ANSI/VT100 的終端模擬器，使它能夠在一個真實終端下運行多個全屏的偽終端。screen 的參數很多，具有很強大的功能，我們在此僅介紹其常用功能以及簡要分析一下為什么使用 screen 能夠避免 HUP 信號的影響。我們先看一下 screen 的幫助信息：

SCREEN(1)                                                           SCREEN(1)
                        NAME
                        screen - screen manager with VT100/ANSI terminal emulation
                        SYNOPSIS
                        screen [ -options ] [ cmd [ args ] ]
                        screen -r [[pid.]tty[.host]]
                        screen -r sessionowner/[[pid.]tty[.host]]
                        DESCRIPTION
                        Screen  is  a  full-screen  window manager that multiplexes a physical
                        terminal between several  processes  (typically  interactive  shells).
                        Each  virtual  terminal provides the functions of a DEC VT100 terminal
                        and, in addition, several control functions from the  ISO  6429  (ECMA
                        48,  ANSI  X3.64)  and ISO 2022 standards (e.g. insert/delete line and
                        support for multiple character sets).  There is a  scrollback  history
                        buffer  for  each virtual terminal and a copy-and-paste mechanism that
                        allows moving text regions between windows.

使用 screen 很方便，有以下幾個常用選項：

用screen -dmS session name 來建立一個處于斷開模式下的會話（并指定其會話名）。
用screen -list 來列出所有會話。
用screen -r session name 來重新連接指定會話。
用快捷鍵CTRL-a d 來暫時斷開當前會話。

screen 示例

                        [root@pvcent107 ~]# screen -dmS Urumchi
                        [root@pvcent107 ~]# screen -list
                        There is a screen on:
                        12842.Urumchi   (Detached)
                        1 Socket in /tmp/screens/S-root.
                        [root@pvcent107 ~]# screen -r Urumchi

當我們用“-r”連接到 screen 會話后，我們就可以在這個偽終端里面為所欲為，再也不用擔心 HUP 信號會對我們的進程造成影響，也不用給每個命令前都加上“nohup”或者“setsid”了。這是為什么呢？讓我來看一下下面兩個例子吧。

1. 未使用 screen 時新進程的進程樹

                        [root@pvcent107 ~]# ping www.google.com &
                        [1] 9499
                        [root@pvcent107 ~]# pstree -H 9499
                        init─┬─Xvnc
                        ├─acpid
                        ├─atd
                        ├─2*[sendmail]
                        ├─sshd─┬─sshd───bash───pstree
                        │       └─sshd───bash───ping

我們可以看出，未使用 screen 時我們所處的 bash 是 sshd 的子進程，當 ssh 斷開連接時，HUP 信號自然會影響到它下面的所有子進程（包括我們新建立的 ping 進程）。

2. 使用了 screen 后新進程的進程樹

                        [root@pvcent107 ~]# screen -r Urumchi
                        [root@pvcent107 ~]# ping www.ibm.com &
                        [1] 9488
                        [root@pvcent107 ~]# pstree -H 9488
                        init─┬─Xvnc
                        ├─acpid
                        ├─atd
                        ├─screen───bash───ping
                        ├─2*[sendmail]

而使用了 screen 后就不同了，此時 bash 是 screen 的子進程，而 screen 是 init（PID為1）的子進程。那么當 ssh 斷開連接時，HUP 信號自然不會影響到 screen 下面的子進程了。

回頁首

總結

現在幾種方法已經介紹完畢，我們可以根據不同的場景來選擇不同的方案。nohup/setsid 無疑是臨時需要時最方便的方法，disown 能幫助我們來事后補救當前已經在運行了的作業，而 screen 則是在大批量操作時不二的選擇了。

參考資料

“系統管理員工具包：進程管理技巧”（developerWorks 中國，2006 年 5 月）介紹了 Linux 進程管理的更多技巧。
“Linux 技巧：使用 screen 管理你的遠程會話”（developerWorks 中國，2007 年 7 月）介紹了 screen 的更多技巧。
在 developerWorks 中國網站 Linux 專區中學習更多 Linux 方面的知識。

關于作者


		申毅，IBM 中國軟件開發中心 WebSphere Portal 部門軟件工程師。

對本文的評價

太差！ (1)

需提高 (2)

一般；尚可 (3)

好文章 (4)

真棒！(5)

建議？

回頁首

IBM 公司保留在 developerWorks 網站上發表的內容的著作權。未經IBM公司或原始作者的書面明確許可，請勿轉載。如果您希望轉載，請通過提交轉載請求表單聯系我們的編輯團隊。

posted @ 2009-07-10 23:53 cc 閱讀(219) | 評論 (0) | 編輯收藏

1、關于tr
   通過使用 tr，您可以非常容易地實現 sed 的許多最基本功能。您可以將 tr 看作為 sed 的（極其）簡化的變體：它可以用一個字符來替換另一個字符，或者可以完全除去一些字符。您也可以用它來除去重復字符。這就是所有 tr 所能夠做的。
       tr用來從標準輸入中通過替換或刪除操作進行字符轉換。tr主要用于刪除文件中控制字符或進行字符轉換。使用tr時要轉換兩個字符串：字符串1用于查詢，字符串2用于處理各種轉換。tr剛執行時，字符串1中的字符被映射到字符串2中的字符，然后轉換操作開始。
帶有最常用選項的tr命令格式為：
tr -c -d -s ["string1_to_translate_from"] ["string2_to_translate_to"] < input-file
這里：
-c 用字符串1中字符集的補集替換此字符集，要求字符集為ASCII。
-d 刪除字符串1中所有輸入字符。
-s 刪除所有重復出現字符序列，只保留第一個；即將重復出現字符串壓縮為一個字符串。
input-file是轉換文件名。雖然可以使用其他格式輸入，但這種格式最常用。
2、字符范圍
指定字符串1或字符串2的內容時，只能使用單字符或字符串范圍或列表。
[a-z] a-z內的字符組成的字符串。
[A-Z] A-Z內的字符組成的字符串。
[0-9] 數字串。
\octal 一個三位的八進制數，對應有效的ASCII字符。
[O*n] 表示字符O重復出現指定次數n。因此[O*2]匹配OO的字符串。
tr中特定控制字符的不同表達方式
速記符含義八進制方式
\a Ctrl-G 鈴聲\007
\b Ctrl-H 退格符\010
\f Ctrl-L 走行換頁\014
\n Ctrl-J 新行\012
\r Ctrl-M 回車\015
\t Ctrl-I tab鍵\011
\v Ctrl-X \030
3、應用例子
（1）去除oops.txt里面的重復的小寫字符
tr -s "[a-z]"<oops.txt >result.txt
（2）刪除空行
tr -s "[\012]" < plan.txt 或 tr -s ["\n"] < plan.txt
（3）有時需要刪除文件中的^M，并代之以換行
tr -s "[\015]" "[\n]" < file 或 tr -s "[\r]" "[\n]" < file
（4）大寫到小寫
cat a.txt |tr "[a-z]" "[A-Z]" >b.txt
（5）刪除指定字符
    一個星期的日程表。任務是從其中刪除所有數字，只保留日期。日期有大寫，也有小寫格式。因此需指定兩個字符范圍[a-z]和[A-Z]，命令tr -cs "[a-z][A-Z]" "[\012*]" 將文件每行所有不包含在[a-z]或[A-Z]（所有希臘字母）的字符串放在字符串1中并轉換為一新行。-s選項表明壓縮所有新行， -c表明保留所有字母不動。原文件如下，后跟tr命令：
tr -cs "[a-z][A-Z]" "[\012*]" <diary.txt
（6）轉換控制字符
    tr的第一個功能就是轉換控制字符，特別是從dos向UNIX下載文件時，忘記設置ftp關于回車換行轉換的選項時更是如此。cat -v filename 顯示控制字符。
    cat -v stat.txt
    box aa^^^^^12^M
    apple bbas^^^^23^M
    ^Z
猜想‘^ ^ ^ ^ ^ ^’是tab鍵。每一行以Ctrl-M結尾，文件結尾Ctrl-Z，以下是改動方法。
使用-s選項，查看ASCII表。^的八進制代碼是136，^M是015，tab鍵是011，^Z是032 ,下面將按步驟完成最終功能。
用tab鍵替換^ ^ ^ ^ ^ ^，命令為"\136" "[\011*]"。將結果重定向到臨時工作文件stat.tmp
tr -s "[\136]" "[\011*]" <stat.txt >stat.tmp
用新行替換每行末尾的^M，并用\n去除^Z，輸入要來自于臨時工作文件stat.tmp。
tr -s "[\015][\032]" "\n" <stat.tmp
要刪除所有的tab鍵，代之以空格，使用命令
tr -s "[\011]" "[\040*]" <input.file
（7）替換passwd文件中所有冒號，代之以tab鍵，可以增加可讀性
tr -s "[:]" "[\011]" < /etc/passwd 或 tr -s "[:]" "[\t]" < /etc/passwd
（8）使路徑具有可讀性
    如果用 echo $PATH 或者 echo $LD_LIBRARY_PATH 等類似的命令來顯示路徑信息的話，我們看到的將會是一大堆用冒號連接在一起的路徑， tr命令可以把這些冒號轉換為回車，這樣，這些路徑就具有很好的可讀性了
echo $PATH | tr ":" "\n"
（9）可以在vi內使用所有這些命令！只要記住：在tr命令前要加上您希望處理的行范圍和感嘆號（！），如 1,$!tr -d '\t'（美元符號表示最后一行）。
（10）另外，當有人給您發送了一個在 Mac OS 或 DOS/Windows 機器上創建的文本文件時，您會發現tr非常有用。
    如果沒有將文件保存為使用 UNIX 換行符來表示行結束這種格式，則需要將這樣的文件轉換成本機 UNIX 格式，否則一些命令實用程序不會正確地處理這些文件。Mac OS 的行尾以回車字符(\r)結束，許多文本處理工具將這樣的文件作為一行來處理。為了糾正這個問題，可以用下列技巧：
Mac -> UNIX：tr "\r" "\n"<macfile > unixfile
UNIX -> Mac：tr "\n" "\r"<unixfile > macfile
Microsoft DOS/Windows 約定，文本的每行以回車字符(\r)并后跟換行符(\n)結束。為了糾正這個問題，可以使用下列命令：
DOS -> UNIX：tr -d "\r"<dosfile > unixfile
UNIX -> DOS：在這種情況下，需要用awk，因為tr不能插入兩個字符來替換一個字符。要使用的 awk 命令為 awk '{ print $0"\r" }'<unixfile > dosfile

posted @ 2008-11-14 00:25 cc 閱讀(210) | 評論 (0) | 編輯收藏

一、rpm包安裝方式步驟：

1、找到相應的軟件包，比如soft.version.rpm，下載到本機某個目錄；

2、打開一個終端，su -成root用戶；

3、cd soft.version.rpm所在的目錄；

4、輸入rpm -ivh soft.version.rpm

二、deb包安裝方式步驟：

1、找到相應的軟件包，比如soft.version.deb，下載到本機某個目錄；

2、打開一個終端，su -成root用戶；

3、cd soft.version.deb所在的目錄；

4、輸入dpkg -i soft.version.deb

三、tar.gz源代碼包安裝方式：

1、找到相應的軟件包，比如soft.tar.gz，下載到本機某個目錄；

2、打開一個終端，su -成root用戶；

3、cd soft.tar.gz所在的目錄；

4、tar -xzvf soft.tar.gz //一般會生成一個soft目錄

5、cd soft

6、./configure

7、make

8、make install

四、tar.bz2源代碼包安裝方式：

1、找到相應的軟件包，比如soft.tar.bz2，下載到本機某個目錄；

2、打開一個終端，su -成root用戶；

3、cd soft.tar.bz2所在的目錄；

4、tar -xjvf soft.tar.bz2 //一般會生成一個soft目錄

5、cd soft

6、./configure

7、make

8、make install

五、apt方式安裝：

1、打開一個終端，su -成root用戶；

2、apt-cache search soft 注：soft是你要找的軟件的名稱或相關信息

3、如果2中找到了軟件soft.version，則用apt-get install soft.version命令安

裝軟件注：只要你可以上網，只需要用apt-cache search查找軟件，用apt-get

install軟件

六、bin文件安裝：

如果你下載到的軟件名是soft.bin，一般情況下是個可執行文件，安裝方法如下：

1、打開一個終端，su -成root用戶；

2、chmod +x soft.bin

3、./soft.bin //運行這個命令就可以安裝軟件了

七、不需要安裝的軟件：

有了些軟件，比如lumaqq，是不需要安裝的，自帶jre解壓縮后可直接運行。假設

下載的是lumaqq.tar.gz，使用方法如下：

1、打開一個終端，su -成root用戶；

2、tar -xzvf lumaqq.tar.gz //這一步會生成一個叫LumaQQ的目錄

3、cd LumaQQ

4、chmod +x lumaqq //設置lumaqq這個程序文件為可運行

5、此時就可以運行lumaqq了，用命令./lumaqq即可，但每次運行要輸入全路徑或

切換到剛才生成的LumaQQ目錄里

6、為了保證不設置路徑就可以用，你可以在/bin目錄下建立一個lumaqq的鏈接，

用命令ln -s lumaqq /bin/ 即可，以后任何時候打開一個終端輸入lumaqq就可以

啟動QQ聊天軟件了

7、如果你要想lumaqq有個菜單項，使用菜單編輯工具，比如Alacarte Menu

Editor，找到上面生成的LumaQQ目錄里的lumaqq設置一個菜單項就可以了，當然你

也可以直接到 /usr/share/applications目錄，按照里面其它*.desktop文件的格

式生成一個自己的desktop文件即可。

posted @ 2008-11-14 00:10 cc 閱讀(235) | 評論 (0) | 編輯收藏

Linux下常用壓縮格式的壓縮與解壓方法

解包：tar xvf FileName.tar
打包：tar cvf FileName.tar DirName
（注：tar是打包，不是壓縮！）
---------------------------------------------
.gz
解壓1：gunzip FileName.gz
解壓2：gzip -d FileName.gz
壓縮：gzip FileName
.tar.gz
解壓：tar zxvf FileName.tar.gz
壓縮：tar zcvf FileName.tar.gz DirName
---------------------------------------------
.bz2
解壓1：bzip2 -d FileName.bz2
解壓2：bunzip2 FileName.bz2
壓縮： bzip2 -z FileName
.tar.bz2
解壓：tar jxvf FileName.tar.bz2
壓縮：tar jcvf FileName.tar.bz2 DirName
---------------------------------------------
.bz
解壓1：bzip2 -d FileName.bz
解壓2：bunzip2 FileName.bz
壓縮：未知
.tar.bz
解壓：tar jxvf FileName.tar.bz
壓縮：未知
---------------------------------------------
.Z
解壓：uncompress FileName.Z
壓縮：compress FileName
.tar.Z
解壓：tar Zxvf FileName.tar.Z
壓縮：tar Zcvf FileName.tar.Z DirName
---------------------------------------------
.tgz
解壓：tar zxvf FileName.tgz
壓縮：未知
.tar.tgz
解壓：tar zxvf FileName.tar.tgz
壓縮：tar zcvf FileName.tar.tgz FileName
---------------------------------------------
.zip
解壓：unzip FileName.zip
壓縮：zip FileName.zip DirName
---------------------------------------------
.rar
解壓：rar a FileName.rar
壓縮：rar e FileName.rar

rar請到：http://www.rarsoft.com/download.htm 下載！
解壓后請將rar_static拷貝到/usr/bin目錄（其他由$PATH環境變量指定的目錄也可以）：
[root@www2 tmp]# cp rar_static /usr/bin/rar
---------------------------------------------
.lha
解壓：lha -e FileName.lha
壓縮：lha -a FileName.lha FileName

lha請到：http://www.infor.kanazawa-it.ac.jp/~ishii/lhaunix/下載！
解壓后請將lha拷貝到/usr/bin目錄（其他由$PATH環境變量指定的目錄也可以）：
[root@www2 tmp]# cp lha /usr/bin/
---------------------------------------------
.tar .tgz .tar.gz .tar.Z .tar.bz .tar.bz2 .zip .cpio .rpm .deb .slp .arj .rar .ace .lha .lzh .lzx .lzs .arc .sda .sfx .lnx .zoo .cab .kar .cpt .pit .sit .sea
解壓：sEx x FileName.*
壓縮：sEx a FileName.* FileName

sEx只是調用相關程序，本身并無壓縮、解壓功能，請注意！
sEx請到：http://sourceforge.net/projects/sex下載！
解壓后請將sEx拷貝到/usr/bin目錄（其他由$PATH環境變量指定的目錄也可以）：
[root@www2 tmp]# cp sEx /usr/bin/

posted @ 2008-11-13 23:23 cc 閱讀(189) | 評論 (0) | 編輯收藏

rpm -qa | grep ****
rpm -ql **** | more
查找軟件是否安裝。

posted @ 2008-10-30 11:34 cc 閱讀(163) | 評論 (0) | 編輯收藏

Google原理（ZT）

這篇文章中，我們介紹了google，它是一個大型的搜索引擎（of a large-scale search engine）的原型，搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁并建立索引，它的查詢結果比其它現有系統都高明。這個原型的全文和超連接的數據庫至少包含24‘000‘000個網頁。我們可以從http://google.stanford.edu/ 下載。

設計搜索引擎是一項富有挑戰性的工作。搜索引擎為上億個網頁建立索引，其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個查詢。在網絡中，盡管大型搜索引擎非常重要，但是學術界卻很少研究它。此外由于技術的快速發展和網頁的大量增加，現在建立一個搜索引擎和三年前完全不同。

本文詳細介紹了我們的大型搜索引擎，據我們所知，在公開發表的論文中，這是第一篇描述地如此詳細。除了把傳統數據搜索技術應用到如此大量級網頁中所遇到的問題，還有許多新的技術挑戰，包括應用超文本中的附加信息改進搜索結果。

本文將解決這個問題，描述如何運用超文本中的附加信息，建立一個大型實用系統。任何人都可以在網上隨意發布信息，如何有效地處理這些無組織的超文本集合，也是本文要關注的問題。

關鍵詞 World Wide Web，搜索引擎，信息檢索，PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰。Web上的信息量快速增長，同時不斷有毫無經驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網上沖浪，通常都以象 Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感興趣的主題，但是它具有主觀性，建立和維護的代價高，升級慢，不能包括所有深奧的主題。基于關鍵詞的自動搜索引擎通常返回太多的低質量的匹配。使問題更遭的是，一些廣告為了贏得人們的關注想方設法誤導自動搜索引擎。

我們建立了一個大型搜索引擎解決了現有系統中的很多問題。應用超文本結構，大大提高了查詢質量。我們的系統命名為google，取名自googol的通俗拼法，即10的100次方，這和我們的目標建立一個大型搜索引擎不謀而合。

1.1 網絡搜索引擎—升級換代（scaling up）：1994-2000 搜索引擎技術不得不快速升級（scale dramatically）跟上成倍增長的web數量。1994年，第一個Web搜索引擎，World Wide Web Worm(WWWW)可以檢索到110，000個網頁和Web的文件。到1994年11月，頂級的搜索引擎聲稱可以檢索到2‘000'000 （WebCrawler）至100‘000'000個網絡文件（來自 Search Engine Watch）。可以預見到2000年，可檢索到的網頁將超過1‘000'000‘000。同時，搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份，World Wide Web Worm 平均每天收到1500個查詢。

在1997年11月，Altavista 聲稱它每天要處理大約20'000'000個查詢。隨著網絡用戶的增長，到2000年，自動搜索引擎每天將處理上億個查詢。我們系統的設計目標要解決許多問題，包括質量和可升級性，引入升級搜索引擎技術（scaling search engine technology），把它升級到如此大量的數據上。

1.2 Google：跟上Web的步伐（Scaling with the Web）建立一個能夠和當今web規模相適應的搜索引擎會面臨許多挑戰。抓網頁技術必須足夠快，才能跟上網頁變化的速度（keep them up to date）。存儲索引和文檔的空間必須足夠大。索引系統必須能夠有效地處理上千億的數據。處理查詢必須快，達到每秒能處理成百上千個查詢（hundreds to thousands per second.）。隨著Web的不斷增長，這些任務變得越來越艱巨。然而硬件的執行效率和成本也在快速增長，可以部分抵消這些困難。

還有幾個值得注意的因素，如磁盤的尋道時間（disk seek time），操作系統的效率（operating system robustness）。在設計Google的過程中，我們既考慮了Web的增長速度，又考慮了技術的更新。Google的設計能夠很好的升級處理海量數據集。它能夠有效地利用存儲空間來存儲索引。優化的數據結構能夠快速有效地存取（參考4.2節）。進一步，我們希望，相對于所抓取的文本文件和HTML網頁的數量而言，存儲和建立索引的代價盡可能的小（參考附錄B）。對于象Google這樣的集中式系統，采取這些措施得到了令人滿意的系統可升級性（scaling properties）。

1. 3設計目標

1.3.1提高搜索質量我們的主要目標是提高Web搜索引擎的質量。 1994年，有人認為建立全搜索索引（a complete search index）可以使查找任何數據都變得容易。根據Best of the Web 1994 -- Navigators ，“最好的導航服務可以使在Web上搜索任何信息都很容易（當時所有的數據都可以被登錄）”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經證實索引的完整性不是評價搜索質量的唯一標準。用戶感興趣的搜索結果往往湮沒在“垃圾結果Junk result”中。實際上，到1997年11月為止，四大商業搜索引擎中只有一個能夠找到它自己（搜索自己名字時返回的前十個結果中有它自己）。導致這一問題的主要原因是文檔的索引數目增加了好幾個數量級，但是用戶能夠看的文檔數卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。因此，當集合增大時，我們就需要工具使結果精確（在返回的前幾十個結果中，有關文檔的數量）。由于是從成千上萬個有點相關的文檔中選出幾十個，實際上，相關的概念就是指最好的文檔。高精確非常重要，甚至以響應（系統能夠返回的有關文檔的總數）為代價。令人高興的是利用超文本鏈接提供的信息有助于改進搜索和其它應用。尤其是鏈接結構和鏈接文本，為相關性的判斷和高質量的過濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本（見2.1和2.2 節）。

1.3.2搜索引擎的學術研究隨著時間的流逝，除了發展迅速，Web越來越商業化。1993年，只有1.5%的Web服務是來自. com域名。到1997年，超過了60%。同時，搜索引擎從學術領域走進商業。到現在大多數搜索引擎被公司所有，很少技公開術細節。這就導致搜索引擎技術很大程度上仍然是暗箱操作，并傾向做廣告（見附錄A）。Google的主要目標是推動學術領域在此方面的發展，和對它的了解。另一個設計目標是給大家一個實用的系統。應用對我們來說非常重要，因為現代網絡系統中存在大量的有用數據（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems）。例如，每天有幾千萬個研究。然而，得到這些數據卻非常困難，主要因為它們沒有商業價值。我們最后的設計目標是建立一個體系結構能夠支持新的關于海量Web數據的研究。為了支持新研究，Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環境使其他研究者能夠很快進入這個領域，處理海量Web數據，得到滿意的結果，而通過其它方法卻很難得到結果。系統在短時間內被建立起來，已經有幾篇論文用到了 Google建的數據庫，更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環境，在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。

2. 系統特點 Google搜索引擎有兩個重要特點，有助于得到高精度的搜索結果。

第一點，應用Web的鏈接結構計算每個網頁的Rank值，稱為PageRank，將在98頁詳細描述它。

第二點，Google利用超鏈接改進搜索結果。

2.1 PageRank:給網頁排序 Web的引用（鏈接）圖是重要的資源，卻被當今的搜索引擎很大程度上忽視了。我們建立了一個包含518‘000'000個超鏈接的圖，它是一個具有重要意義的樣本。這些圖能夠快速地計算網頁的PageRank值，它是一個客觀的標準，較好的符合人們心目中對一個網頁重要程度的評價，建立的基礎是通過引用判斷重要性。因此在web中，PageRank能夠優化關鍵詞查詢的結果。對于大多數的主題，在網頁標題查詢中用PageRank優化簡單文本匹配，我們得到了令人驚嘆的結果（從google.stanford.edu可以得到演示）。對于Google主系統中的全文搜索，PageRank也幫了不少忙。

2.1.1計算PageRank 文獻檢索中的引用理論用到Web中，引用網頁的鏈接數，一定程度上反映了該網頁的重要性和質量。PageRank發展了這種思想，網頁間的鏈接是不平等的。

PageRank 定義如下: 我們假設T1…Tn指向網頁A（例如，被引用）。參數d是制動因子，使結果在0，1之間。通常d等于0.85。在下一節將詳細介紹d。C（A）定義為網頁 A指向其它網頁的鏈接數，網頁A的PageRank值由下式給出： PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式，分布到各個網頁中，因此所有網頁的PageRank和是1。 PageRank或PR（A）可以用簡單的迭代算法計算，相應規格化Web鏈接矩陣的主特征向量。中等規模的網站計算26‘000'000網頁的 PageRank值要花費幾小時。還有一些技術細節超出了本文論述的范圍。

2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設網上沖浪是隨機的，不斷點擊鏈接，從不返回，最終煩了，另外隨機選一個網頁重新開始沖浪。隨機訪問一個網頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網頁煩了的可能性，隨機另選一個網頁。對單個網頁或一組網頁，一個重要的變量加入到制動因子d中。這允許個人可以故意地誤導系統，以得到較高的PageRank值。我們還有其它的PageRank算法，見98頁。

另外的直覺判斷是一個網頁有很多網頁指向它，或者一些PageRank值高的網頁指向它，則這個網頁很重要。直覺地，在Web中，一個網頁被很多網頁引用，那么這個網頁值得一看。一個網頁被象Yahoo這樣重要的主頁引用即使一次，也值得一看。如果一個網頁的質量不高，或者是死鏈接，象Yahoo這樣的主頁不會鏈向它。 PageRank處理了這兩方面因素，并通過網絡鏈接遞歸地傳遞。

2.2鏈接描述文字（Anchor Text）我們的搜索引擎對鏈接文本進行了特殊的處理。大多數搜索引擎把鏈接文字和它所鏈向的網頁（the page that the link is on）聯系起來。另外，把它和鏈接所指向的網頁聯系起來。這有幾點好處。

第一，通常鏈接描述文字比網頁本身更精確地描述該網頁。

第二，鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到，例如圖像，程序和數據庫。有可能使返回的網頁不能被抓到。注意哪些抓不到的網頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網頁，但是有超級鏈接指向它。然而這種結果可以被挑出來的，所以此類的問題很少發生。鏈接描述文字是對被鏈向網頁的宣傳，這個思想被用在World Wide Web Worm 中，主要因為它有助于搜索非文本信息，能夠用少量的已下載文檔擴大搜索范圍。我們大量應用鏈接描述文字，因為它有助于提高搜索結果的質量。有效地利用鏈接描述文字技術上存在一些困難，因為必須處理大量的數據。現在我們能抓到24‘000'000個網頁，已經檢索到259‘000'000多個鏈接描述文字。

2.3其它特點除了PageRank和應用鏈接描述文字外，Google還有一些其它特點。

第一,所有hit都有位置信息，所以它可以在搜索中廣泛應用鄰近性（proximity）。

第二，Google跟蹤一些可視化外表細節，例如字號。黑體大號字比其它文字更重要。

第三，知識庫存儲了原始的全文html網頁。

3 有關工作 Web檢索研究的歷史簡短。World Wide Web Worm（）是最早的搜索引擎之一。后來出現了一些用于學術研究的搜索引擎，現在它們中的大多數被上市公司擁有。與Web的增長和搜索引擎的重要性相比，有關當今搜索引擎技術的優秀論文相當少。根據Michael Mauldin（Lycos Inc的首席科學家）) ，“各種各樣的服務（包括Lycos）非常關注這些數據庫的細節。”雖然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有，對現有商業搜索引擎的結果進行傳遞，或建立小型的個性化的搜索引擎。最后有關信息檢索系統的研究很多，尤其在有組織機構集合（well controlled collections）方面。在下面兩節，我們將討論在信息檢索系統中的哪些領域需要改進以便更好的工作在Web上。

3.1信息檢索信息檢索系統誕生在幾年前，并發展迅速。然而大多數信息檢索系統研究的對象是小規模的單一的有組織結構的集合，例如科學論文集，或相關主題的新聞故事。實際上，信息檢索的主要基準，the Text Retrieval Conference（），用小規模的、有組織結構的集合作為它們的基準。

大型文集基準只有20GB，相比之下，我們抓到的24000000個網頁占147GB。在TREC上工作良好的系統，在Web上卻不一定產生好的結果。例如，標準向量空間模型企圖返回和查詢請求最相近的文檔，把查詢請求和文檔都看作由出現在它們中的詞匯組成的向量。在Web環境下，這種策略常常返回非常短的文檔，這些文檔往往是查詢詞再加幾個字。例如，查詢“Bill Clinton”，返回的網頁只包含“Bill Clinton Sucks”，這是我們從一個主要搜索引擎中看到的。網絡上有些爭議，用戶應該更準確地表達他們想查詢什么，在他們的查詢請求中用更多的詞。我們強烈反對這種觀點。如果用戶提出象“Bill Clinton”這樣的查詢請求，應該得到理想的查詢結果，因為這個主題有許多高質量的信息。象所給的例子，我們認為信息檢索標準需要發展，以便有效地處理Web數據。

3.2有組織結構的集合（Well Controlled Collections）與Web的不同點 Web是完全無組織的異構的大量文檔的集合。Web中的文檔無論內在信息還是隱含信息都存在大量的異構性。例如，文檔內部就用了不同的語言（既有人類語言又有程序），詞匯（email地址，鏈接，郵政編碼，電話號碼，產品號），類型（文本，HTML，PDF，圖像，聲音），有些甚至是機器創建的文件（log文件，或數據庫的輸出）。可以從文檔中推斷出來，但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽，更新頻率，質量，訪問量和引用。不但隱含信息的可能來源各種各樣，而且被檢測的信息也大不相同，相差可達好幾個數量級。例如，一個重要主頁的使用量，象Yahoo 每天瀏覽數達到上百萬次，于此相比無名的歷史文章可能十年才被訪問一次。很明顯，搜索引擎對這兩類信息的處理是不同的。 Web與有組織結構集合之間的另外一個明顯區別是，事實上，向Web上傳信息沒有任何限制。靈活利用這點可以發布任何對搜索引擎影響重大的信息，使路由阻塞，加上為牟利故意操縱搜索引擎，這些已經成為一個嚴重的問題。這些問題還沒有被傳統的封閉的信息檢索系統所提出來。它關心的是元數據的努力，這在Web 搜索引擎中卻不適用，因為網頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。

4 系統分析（System Anatomy）首先，我們提供高水平的有關體系結構的討論。然后，詳細描述重要的數據結構。最后，主要應用：抓網頁，索引，搜索將被嚴格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結構概述這一節，我們將看看整個系統是如何工作的（give a high level），見圖1。本節不討論應用和數據結構，在后幾節中討論。為了效率大部分Google是用c或c++實現的，既可以在Solaris也可以在 Linux上運行。

Google系統中，抓網頁（下載網頁）是由幾個分布式crawlers完成的。一個URL服務器負責向crawlers 提供URL列表。抓來的網頁交給存儲服務器storeserver。然后，由存儲服務器壓縮網頁并把它們存到知識庫repository中。每個網頁都有一個ID，稱作docID，當新URL從網頁中分析出時，就被分配一個docID。由索引器和排序器負責建立索引index function。索引器從知識庫中讀取文檔，對其解壓縮和分析。每個文檔被轉換成一組詞的出現情況，稱作命中hits。Hits紀錄了詞，詞在文檔中的位置，最接近的字號，大小寫。索引器把這些hits分配到一組桶barrel中，產生經過部分排序后的索引。索引器的另一個重要功能是分析網頁中所有的鏈接，將有關的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息，可以用來判斷每個鏈接鏈出鏈入節點的信息，和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件，并把相對URL轉換成絕對URL，再轉換成docID。為鏈接描述文本編制索引，并與它所指向的docID關聯起來。同時建立由docID對組成的鏈接數據庫。用于計算所有文檔的PageRank值。用docID分類后的barrels，送給排序器sorter，再根據wordID進行分類，建立反向索引inverted index。這個操作要恰到好處，以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表，建立反向索引。一個叫DumpLexicon的程序把這個列表和由索引器產生的字典結合在一起，建立一個新的字典，供搜索器使用。這個搜索器就是利用一個Web服務器，使用由DumpLexicon所生成的字典，利用上述反向索引以及頁面等級PageRank來回答用戶的提問。 4.2主要數據結構經過優化的Google數據結構，能夠用較小的代價抓取大量文檔，建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時候Google系統的設計都盡可能地避免磁盤尋道。這對數據結構的設計影響很大。

4.2.1大文件大文件 BigFiles是指虛擬文件生成的多文件系統，用長度是64位的整型數據尋址。多文件系統之間的空間分配是自動完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統不能滿足我們的需要，BigFiles也支持基本的壓縮選項。

4.2.2知識庫 Figure 2. Repository Data Structure 知識庫包含每個網頁的全部HTML。每個網頁用zlib（見RFC1950）壓縮。壓縮技術的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識庫用bzip的壓縮率接近4：1。而用zlib的壓縮率是3：1。文檔一個挨著一個的存儲在知識庫中，前綴是docID，長度，URL，見圖2。訪問知識庫不需要其它的數據結構。這有助于數據一致性和升級。用其它數據結構重構系統，我們只需要修改知識庫和crawler錯誤列表文件。

4.2.3文件索引文件索引保存了有關文檔的一些信息。索引以docID的順序排列，定寬ISAM（Index sequential access mode）。每條記錄包括當前文件狀態，一個指向知識庫的指針，文件校驗和，各種統計表。如果一個文檔已經被抓到，指針指向docinfo文件，該文件的寬度可變，包含了URL和標題。否則指針指向包含這個URL的URL列表。這種設計考慮到簡潔的數據結構，以及在查詢中只需要一個磁盤尋道時間就能夠訪問一條記錄。還有一個文件用于把URL轉換成docID。它是URL校驗和與相應docID的列表，按校驗和排序。要想知道某個URL的docID，需要計算URL的校驗和，然后在校驗和文件中執行二進制查找，找到它的docID。通過對這個文件進行合并，可以把一批URL轉換成對應的docID。URL分析器用這項技術把URL轉換成docID。這種成批更新的模式是至關重要的，否則每個鏈接都需要一次查詢，假如用一塊磁盤，322‘000'000個鏈接的數據集合將花費一個多月的時間。

4.2.4詞典詞典有幾種不同的形式。和以前系統的重要不同是，詞典對內存的要求可以在合理的價格內。現在實現的系統，一臺256M內存的機器就可以把詞典裝入到內存中。現在的詞典包含14000000詞匯（雖然一些很少用的詞匯沒有加入到詞典中）。它執行分兩部分—詞匯表（用null分隔的連續串）和指針的哈希表。不同的函數，詞匯表有一些輔助信息，這超出了本文論述的范圍。

4.2.5 hit list hit list是一篇文檔中所出現的詞的列表，包括位置，字號，大小寫。Hit list占很大空間，用在正向和反向索引中。因此，它的表示形式越有效越好。我們考慮了幾種方案來編碼位置，字號，大小寫—簡單編碼（3個整型數），緊湊編碼（支持優化分配比特位），哈夫曼編碼。Hit的詳細信息見圖3。我們的緊湊編碼每個hit用2字節。有兩種類型hit，特殊hit和普通hit。特殊 hit包含URL，標題，鏈接描述文字，meta tag。普通hit包含其它每件事。它包括大小寫特征位，字號，12比特用于描述詞在文檔中的位置（所有超過4095的位置標記為4096）。字號采用相對于文檔的其它部分的相對大小表示，占3比特(實際只用7個值，因為111標志是特殊hit)。特殊hit由大小寫特征位，字號位為7表示它是特殊 hit，用4比特表示特殊hit的類型，8比特表示位置。對于anchor hit八比特位置位分出4比特用來表示在anchor中的位置，4比特用于表明anchor出現的哈希表hash of the docID。短語查詢是有限的，對某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲方式，以便解決地址位和docIDhash域位數不足的問題。

因為搜索時，你不會因為文檔的字號比別的文檔大而特殊對待它，所以采用相對字號。 hit表的長度存儲在hit前。為節省空間hit表長度，在正向索引中和wordID結合在一起，在反向索引中和docID結合存儲。這就限制它相應地只占8到5比特（用些技巧，可以從wordID中借8bit）如果大于這些比特所能表示的長度，用溢出碼填充，其后兩字節是真正的長度。 Figure 3. Forward and Reverse Indexes and the Lexicon

4.2.6正向索引實際上，正向索引已經部分排序。它被存在一定數量的barrel中（我們用64個barrels）。每個barrel裝著一定范圍的wordID。如果一篇文檔中的詞落到某個 barrel，它的docID將被記錄到這個barrel中，緊跟著那些詞（文檔中所有的詞匯，還是落入該barrel中的詞匯）對應的hitlist。這種模式需要稍多些的存儲空間，因為一個docID被用多次，但是它節省了桶數和時間，最后排序器進行索引時降低編碼的復雜度。更進一步的措施是，我們不是存儲docID本身，而是存儲相對于該桶最小的docID的差。用這種方法，未排序的barrel的docID只需24位，省下8位記錄hitlist 長。

4.2.7反向索引除了反向索引由sorter加工處理之外，它和正向索引包含相同的桶。對每個有效的docID，字典包含一個指向該詞所在桶的指針。它指向由docID和它的相應hitlist組成的doclish，這個doclist代表了所有包含該詞的文檔。 doclist中docID的順序是一個重要的問題。最簡單的解決辦法是用doclish排序。這種方法合并多個詞時很快。另一個可選方案是用文檔中該詞出現的次數排序。這種方法回答單詞查詢，所用時間微不足道。當多詞查詢時幾乎是從頭開始。并且當用其它Rank算法改進索引時，非常困難。我們綜合了這兩種方法，建立兩組反向索引barrel，一組barrels的hitlist只包含標題和anchor hit，另一組barrel包含全部的hitlist。我們首先查第一組索引桶，看有沒有匹配的項，然后查較大的那組桶。

4.3抓網頁運行網絡爬行機器人是一項具有挑戰性的任務。執行的性能和可靠性甚至更重要，還有一些社會焦點。網絡爬行是一項非常薄弱的應用，它需要成百上千的web服務器和各種域名服務器的參與，這些服務器不是我們系統所能控制的。為了覆蓋幾十億的網頁，Google擁有快速的分布式網絡爬行系統。一個URL服務器給若干個網絡爬行機器人（我們采用3個）提供URL列表。URL服務器和網絡爬行機器人都是用Python實現的。每個網絡爬行機器人可以同時打開300個鏈接。抓取網頁必須足夠快。最快時，用4個網絡爬行機器人每秒可以爬行100個網頁。速率達每秒600K。執行的重點是找DNS。每個網絡爬行機器人有它自己的 DNS cache，所以它不必每個網頁都查DNS。每一百個連接都有幾種不同的狀態：查DNS，連接主機，發送請求，接收回答。這些因素使網絡爬行機器人成為系統比較復雜的部分。它用異步IO處理事件，若干請求隊列從一個網站到另一個網站不停的抓取網頁。運行一個鏈接到500多萬臺服務器的網頁爬行機器人，產生 1千多萬登陸口，導致了大量的Email和電話。因為網民眾多，總有些人不知道網絡爬行機器人是何物，這是他們看到的第一個網絡爬行機器人。幾乎每天我們都會收到這樣的Email“哦，你從我們的網站看了太多的網頁，你想干什么？”還有一些人不知道網絡搜索機器人避免協議（the robots exclusion protocol），以為他們的網頁上寫著“版權所有，勿被索引”的字樣就會被保護不被索引，不必說，這樣的話很難被web crawler理解。因為數據量如此之大，還會遇到一些意想不到的事情。例如，我們的系統曾經企圖抓一個在線游戲，結果抓到了游戲中的大量垃圾信息。解決這個問題很簡單。但是我們下載了幾千萬網頁后才發現了這個問題。因為網頁和服務器的種類繁多，實際上不在大部分Internet上運行它就測試一個網頁爬行機器人是不可能。總是有幾百個隱含的問題發生在整個web的一個網頁上，導致網絡爬行機器人崩潰，或者更糟，導致不可預測的不正確的行為。能夠訪問大部分Internet的系統必須精力充沛并精心測試過。由于象crawler這樣大型復雜的系統總是產生這樣那樣的問題，因此花費一些資源讀這些 Email，當問題發生時解決它，是有必要的。

4.4Web索引分析—任何運行在整個Web上的分析器必須能夠處理可能包含錯誤的大型集合。范圍從HTML標記到標記之間幾K字節的0，非ASCII字符，幾百層HTML標記的嵌套，各種各樣令人難以想象的錯誤。為了獲得最大的速度，我們沒有采用YACC產生上下文無關文法CFG分析器，而是采用靈活的方式產生詞匯分析器，它自己配有堆棧。分析器的改進大大提高了運行速度，它的精力如此充沛完成了大量工作。把文檔裝入barrel建立索引—分析完一篇文檔，之后把該文檔裝入barrel中，用內存中的hash表—字典，每個詞匯被轉換成一個 wordID。當hash表字典中加入新的項時，笨拙地存入文件。一旦詞匯被轉換成wordID，它們在當前文檔的出現就轉換成hitlist，被寫進正向barrel。索引階段并行的主要困難是字典需要共享。

我們采用的方法是，基本字典中有140萬個固定詞匯，不在基本字典中的詞匯寫入日志，而不是共享字典。這種方法多個索引器可以并行工作，最后一個索引器只需處理一個較小的額外詞匯日志。排序—為了建立反向索引，排序器讀取每個正向 barrel，以wordID排序，建立只有標題anchor hi t的反向索引barrel和全文反向索引barrel。這個過程一次只處理一個barrel，所以只需要少量暫存空間。排序階段也是并行的，我們簡單地同時運行盡可能多的排序器，不同的排序器處理不同的桶。由于barrel不適合裝入主存，排序器進一步依據wordID和docID把它分成若干籃子，以便適合裝入主存。然后排序器把每個籃子裝入主存進行排序，并把它的內容寫回到短反向barrel和全文反向barrel。

4.5搜索搜索的目標是提供有效的高質量的搜索結果。多數大型商業搜索引擎好像在效率方面花費了很大力氣。因此我們的研究以搜索質量為重點，相信我們的解決方案也可以用到那些商業系統中。

Google查詢評價過程見圖4。

1. 分析查詢。

2. 把詞匯轉換成wordID。

3. 在短barrel中查找每個詞匯doclist的開頭。

4. 掃描doclist直到找到一篇匹配所有關鍵詞的文檔

5. 計算該文檔的rank

6. 如果我們在短barrel，并且在所有doclist的末尾，開始從全文barrel的doclist的開頭查找每個詞，goto 第四步

7. 如果不在任何doclist的結尾，返回第四步。

8. 根據rank排序匹配文檔，返回前k個。圖4 Google查詢評價在有限的響應時間內，一旦找到一定數量的匹配文檔，搜索引擎自動執行步驟8。這意味著，返回的結果是子優化的。我們現在研究其它方法來解決這個問題。過去根據PageRank排序hit，看來能夠改進這種狀況。

4.5.1 Ranking系統 Google比典型搜索引擎保存了更多的web信息。每個hitlish包括位置，字號，大小寫。另外，我們還考慮了鏈接描述文字。Rank綜合所有這些信息是困難的。ranking函數設計依據是沒有某個因素對rank影響重大。首先，考慮最簡單的情況—單個詞查詢。為了單個詞查詢中一個文檔的 rank，Goole在文檔的hitlist中查找該詞。Google認為每個hit是幾種不同類型（標題，鏈接描述文字anchor，URL，普通大字號文本，普通小字號文本，……）之一，每種有它自己的類型權重。類型權重建立了一個類型索引向量。Google計算hitlist中每種hit的數量。然后每個hit數轉換成count-weight。Count-weight開始隨hit數線性增加，很快逐漸停止，以至于hit數與此不相關。我們計算 count-weight向量和type-weight向量的標量積作為文檔的IR值。最后IR值結合PageRank作為文檔的最后rank 對于多詞查詢，更復雜些。現在，多詞hitlist必須同時掃描，以便關鍵詞出現在同一文檔中的權重比分別出現時高。相鄰詞的hit一起匹配。對每個匹配 hit 的集合計算相鄰度。相鄰度基于hit在文檔中的距離，分成10個不同的bin值，范圍從短語匹配到根本不相關。不僅計算每類hit數，而且要計算每種類型的相鄰度，每個類型相似度對，有一個類型相鄰度權type-prox-weight。Count轉換成count-weight，計算count- weight type-proc-weight的標量積作為IR值。應用某種debug mode所有這些數和矩陣與查詢結果一起顯示出來。這些顯示有助于改進rank系統。

4.5.2反饋 rank函數有很多參數象type-weight和type-prox-weight。指明這些參數的正確值有點黑色藝術black art。為此，我們的搜索引擎有一個用戶反饋機制。值得信任的用戶可以隨意地評價返回的結果。保存反饋。然后，當修改rank函數時，對比以前搜索的 rank，我們可以看到修改帶來的的影響。雖然不是十全十美，但是它給出了一些思路，當rank函數改變時對搜索結果的影響。

5執行和結果搜索結果的質量是搜索引擎最重要的度量標準。完全用戶評價體系超出了本文的論述范圍，對于大多數搜索，我們的經驗說明Google的搜索結果比那些主要的商業搜索引擎好。作為一個應用PageRank，鏈接描述文字，相鄰度的例子，圖4給出了Google搜索bill Clinton的結果。它說明了Google的一些特點。服務器對結果進行聚類。這對過濾結果集合相當有幫助。這個查詢，相當一部分結果來自 whitehouse.gov域，這正是我們所需要的。現在大多數商業搜索引擎不會返回任何來自whitehouse.gov的結果，這是相當不對的。注意第一個搜索結果沒有標題。因為它不是被抓到的。Google是根據鏈接描述文字決定它是一個好的查詢結果。同樣地，第五個結果是一個Email地址，當然是不可能抓到的。也是鏈接描述文字的結果。所有這些結果質量都很高，最后檢查沒有死鏈接。因為它們中的大部分PageRank值較高。PageRank 百分比用紅色線條表示。沒有結果只含Bill沒有Clinton或只含Clinton沒有Bill。因為詞出現的相近性非常重要。當然搜索引擎質量的真實測試包含廣泛的用戶學習或結果分析，此處篇幅有限，請讀者自己去體驗Google，http://google.stanford.edu/。 5.1存儲需求除了搜索質量，Google的設計可以隨著Web規模的增大而有效地增大成本。一方面有效地利用存儲空間。表1列出了一些統計數字的明細表和Google存儲的需求。由于壓縮技術的應用知識庫只需53GB的存儲空間。是所有要存儲數據的三分之一。按當今磁盤價格，知識庫相對于有用的數據來說比較便宜。搜索引擎需要的所有數據的存儲空間大約55GB。大多數查詢請求只需要短反向索引。文件索引應用先進的編碼和壓縮技術，一個高質量的搜索引擎可以運行在7GB的新PC。

5.2系統執行搜索引擎抓網頁和建立索引的效率非常重要。Google的主要操作是抓網頁，索引，排序。很難測試抓全部網頁需要多少時間，因為磁盤滿了，域名服務器崩潰，或者其它問題導致系統停止。總的來說，大約需要9天時間下載26000000網頁（包括錯誤）。然而，一旦系統運行順利，速度非常快，下載最后11000000網頁只需要63小時，平均每天4000000網頁，每秒48.5個網頁。索引器和網絡爬行機器人同步運行。索引器比網絡爬行機器人快。因為我們花費了大量時間優化索引器，使它不是瓶頸。這些優化包括批量更新文檔索引，本地磁盤數據結構的安排。索引器每秒處理54個網頁。排序器完全并行，用4臺機器，排序的整個過程大概需要24小時。

5.3搜索執行改進搜索執行不是我們研究的重點。當前版本的Google可以在1到10秒間回答查詢請求。時間大部分花費在NFS磁盤IO上（由于磁盤普遍比機器慢）。進一步說，Google沒有做任何優化，例如查詢緩沖區，常用詞匯子索引，和其它常用的優化技術。我們傾向于通過分布式，硬件，軟件，和算法的改進來提高Google的速度。我們的目標是每秒能處理幾百個請求。表2有幾個現在版本Google響應查詢時間的例子。它們說明IO緩沖區對再次搜索速度的影響。 6結論 Google設計成可伸縮的搜索引擎。主要目標是在快速發展的World Wide Web上提供高質量的搜索結果。Google應用了一些技術改進搜索質量包括PageRank，鏈接描述文字，相鄰信息。進一步說，Google是一個收集網頁，建立索引，執行搜索請求的完整的體系結構。

6.1未來的工作大型Web搜索引擎是個復雜的系統，還有很多事情要做。我們直接的目標是提高搜索效率，覆蓋大約100000000個網頁。一些簡單的改進提高了效率包括請求緩沖區，巧妙地分配磁盤空間，子索引。另一個需要研究的領域是更新。我們必須有一個巧妙的算法來決定哪些舊網頁需要重新抓取，哪些新網頁需要被抓取。這個目標已經由實現了。受需求驅動，用代理cache創建搜索數據庫是一個有前途的研究領域。我們計劃加一些簡單的已經被商業搜索引擎支持的特征，例如布爾算術符號，否定，填充。然而另外一些應用剛剛開始探索，例如相關反饋，聚類（Google現在支持簡單的基于主機名的聚類）。我們還計劃支持用戶上下文（象用戶地址），結果摘要。我們正在擴大鏈接結構和鏈接文本的應用。簡單的實驗證明，通過增加用戶主頁的權重或書簽，PageRank可以個性化。對于鏈接文本，我們正在試驗用鏈接周圍的文本加入到鏈接文本。Web搜索引擎提供了豐富的研究課題。如此之多以至于我們不能在此一一列舉，因此在不久的將來，我們希望所做的工作不止本節提到的。

6.2高質量搜索當今 Web搜索引擎用戶所面臨的最大問題是搜索結果的質量。結果常常是好笑的，并且超出用戶的眼界，他們常常灰心喪氣浪費了寶貴的時間。例如，一個最流行的商業搜索引擎搜索“Bill Clillton”的結果是the Bill Clinton Joke of the Day: April 14, 1997。Google的設計目標是隨著Web的快速發展提供高質量的搜索結果，容易找到信息。為此，Google大量應用超文本信息包括鏈接結構和鏈接文本。Google還用到了相鄰性和字號信息。評價搜索引擎是困難的，我們主觀地發現Google的搜索質量比當今商業搜索引擎高。通過PageRank分析鏈接結構使 Google能夠評價網頁的質量。用鏈接文本描述鏈接所指向的網頁有助于搜索引擎返回相關的結果（某種程度上提高了質量）。最后，利用相鄰性信息大大提高了很多搜索的相關性。

6.3可升級的體系結構除了搜索質量，Google設計成可升級的。空間和時間必須高效，處理整個Web時固定的幾個因素非常重要。實現Google系統，CPU、訪存、內存容量、磁盤尋道時間、磁盤吞吐量、磁盤容量、網絡IO都是瓶頸。在一些操作中，已經改進的 Google克服了一些瓶頸。Google的主要數據結構能夠有效利用存儲空間。進一步，網頁爬行，索引，排序已經足夠建立大部分web索引，共 24000000個網頁，用時不到一星期。我們希望能在一個月內建立100000000網頁的索引。

6.4研究工具 Google不僅是高質量的搜索引擎，它還是研究工具。Google搜集的數據已經用在許多其它論文中，提交給學術會議和許多其它方式。最近的研究，例如，提出了Web查詢的局限性，不需要網絡就可以回答。這說明Google不僅是重要的研究工具，而且必不可少，應用廣泛。我們希望Google是全世界研究者的資源，帶動搜索引擎技術的更新換代。 7致謝 Scott Hassan and Alan Steremberg評價了Google的改進。他們的才智無可替代，作者由衷地感謝他們。感謝Hector Garcia-Molina, Rajeev Motwani, Jeff Ullman, and Terry Winograd和全部WebBase開發組的支持和富有深刻見解的討論。最后感謝IBM，Intel，Sun和投資者的慷慨支持，為我們提供設備。這里所描述的研究是Stanford綜合數字圖書館計劃的一部分，由國家科學自然基金支持，合作協議號IRI-9411306。DARPA ，NASA，Interva研究，Stanford數字圖書館計劃的工業合作伙伴也為這項合作協議提供了資金。參考文獻 ?

Google的設計目標是可升級到10億網頁。我們的磁盤和機器大概能處理這么多網頁。系統各個部分耗費的總時間是并行的和線性的。包括網頁爬行機器人，索引器和排序器。擴展后我們認為大多數數據結構運行良好。然而10億網頁接近所有常用操作系統的極限（我們目前運行在Solaris和Linux上）。包括主存地址，開放文件描述符的數量，網絡socket和帶寬，以及其它因素。我們認為當網頁數量大大超過10億網頁時，會大大增加系統復雜性。 9.2集中式索引體系的可升級性隨著計算機性能的提高，海量文本索引的成本比較公平。當然帶寬需求高的其它應用如視頻，越來越普遍。但是，與多媒體例如視頻相比，文本產品的成本低，因此文本仍然普遍。

圖2 Google系統的工作流程圖

(注：原圖來自Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual. Web Search Engine, 1998.http://www-db.stanford.edu/%7Ebackrub/Google.html)

①Google使用高速的分布式爬行器(Crawler)系統中的漫游遍歷器(Googlebot)定時地遍歷網頁，將遍歷到的網頁送到存儲服務器(Store Server)中。

② 存儲服務器使用zlib格式壓縮軟件將這些網頁進行無損壓縮處理后存入數據庫Repository中。Repository獲得了每個網頁的完全Html 代碼后，對其壓縮后的網頁及URL進行分析，記錄下網頁長度、URL、URL長度和網頁內容，并賦予每個網頁一個文檔號(docID)，以便當系統出現故障的時候，可以及時完整地進行網頁的數據恢復。

③索引器(Indexer)從Repository中讀取數據，以后做以下四步工作：

④(a) 將讀取的數據解壓縮后進行分析，它將網頁中每個有意義的詞進行統計后，轉化為關鍵詞(wordID)的若干索引項(Hits)，生成索引項列表，該列表包括關鍵詞、關鍵詞的位置、關鍵詞的大小和大小寫狀態等。索引項列表被存入到數據桶(Barrels)中，并生成以文檔號(docID)部分排序的順排檔索引。

索引項根據其重要程度分為兩種：當索引項中的關鍵詞出現在URL、標題、錨文本(Anchor Text)和標簽中時，表示該索引項比較重要，稱為特殊索引項(Fancy Hits)；其余情況則稱為普通索引項(Plain Hits)。在系統中每個Hit用兩個字節(byte)存儲結構表示：特殊索引項用1位(bit)表示大小寫，用二進制代碼111(占3位)表示是特殊索引項，其余12位有4位表示特殊索引項的類型(即hit是出現在URL、標題、鏈接結點還是標簽中)，剩下8位表示hit在網頁中的具體位置；普通索引項是用1位表示大小寫，3位表示字體大小，其余12位表示在網頁中的具體位置。

順排檔索引和Hit的存儲結構如圖3所示。

圖3 順排檔索引和Hit的存儲結構

值得注意的是，當特殊索引項來自Anchor Text時，特殊索引項用來表示位置的信息（8位）將分為兩部分：4位表示Anchor Text出現的具體位置，另4位則用來與表示Anchor Text所鏈接網頁的docID相連接，這個docID是由URL Resolver經過轉化存入順排檔索引的。

(b)索引器除了對網頁中有意義的詞進行分析外，還分析網頁的所有超文本鏈接，將其Anchor Text、URL指向等關鍵信息存入到Anchor文檔庫中。

(c)索引器生成一個索引詞表(Lexicon)，它包括兩個部分：關鍵詞的列表和指針列表，用于倒排檔文檔相連接(如圖3所示)。

(d) 索引器還將分析過的網頁編排成一個與Repository相連接的文檔索引(Document Index)，并記錄下網頁的URL和標題，以便可以準確查找出在Repository中存儲的原網頁內容。而且把沒有分析的網頁傳給URL Server，以便在下一次工作流程中進行索引分析。

⑤URL分析器（URL Resolver）讀取Anchor文檔中的信息，然后做⑥中的工作。

⑥(a) 將其錨文本(Anchor Text)所指向的URL轉換成網頁的docID；(b)將該docID與原網頁的docID形成“鏈接對”，存入Link數據庫中；(c)將 Anchor Text指向的網頁的docID與順排檔特殊索引項Anchor Hits相連接。

⑦數據庫Link記錄了網頁的鏈接關系，用來計算網頁的PageRank值。

⑧文檔索引(Document Index)把沒有進行索引分析的網頁傳遞給URL Server，URL Server則向Crawler提供待遍歷的URL，這樣，這些未被索引的網頁在下一次工作流程中將被索引分析。

⑨排序器（Sorter）對數據桶(Barrels)的順排檔索引重新進行排序，生成以關鍵詞(wordID)為索引的倒排檔索引。倒排檔索引結構如圖4所示：

圖4 倒排檔索引結構

⑩ 將生成的倒排檔索引與先前由索引器產生的索引詞表(Lexicon)相連接產生一個新的索引詞表供搜索器(Searcher)使用。搜索器的功能是由網頁服務器實現的，根據新產生的索引詞表結合上述的文檔索引(Document Index)和Link數據庫計算的網頁PageRank值來匹配檢索。

在執行檢索時，Google通常遵循以下步驟（以下所指的是單個檢索詞的情況）：

(1)將檢索詞轉化成相應的wordID；

(2)利用Lexicon，檢索出包含該wordID的網頁的docID；

(3)根據與Lexicon相連的倒排檔索引，分析各網頁中的相關索引項的情況，計算各網頁和檢索詞的匹配程度，必要時調用順排檔索引；

(4)根據各網頁的匹配程度，結合根據Link產生的相應網頁的PageRank情況，對檢索結果進行排序；

(5)調用Document Index中的docID及其相應的URL，將排序結果生成檢索結果的最終列表，提供給檢索用戶。

用戶檢索包含多個檢索詞的情況與以上單個檢索詞的情況類似：先做單個檢索詞的檢索，然后根據檢索式中檢索符號的要求進行必要的布爾操作或其他操作。

posted @ 2008-10-19 23:32 cc 閱讀(1425) | 評論 (0) | 編輯收藏

who am i 顯示的是實際用戶ID即用戶登陸的時候的用戶ID

whoami 顯示的是有效用戶ID.

但在大多數情況下，實際用戶ID和有效用戶ID是一致的。

如

login:zhx

Pssword:

$who am i

zhx pts/0 2007-08-16 13:16 (:0.0)

$whoami

zhx

當切換用戶后：

su

Password:

#who am i

zhx pts/0 007-08-16 13:16 (:0.0)

#whoami

root

也可以說who am i 顯示的是切換用戶前的實際登陸的用戶ID,whoami是切換后的有效的用戶ID，此時此終端具有切換后用戶的訪問權限，如本文中切換后則具有超級用戶的訪問權限。

who am i 和whoami有何區別？

首先要說明uid和euid（effective user id）的區別。uid就是你login的時候使用的id，而euid則是你當前的有效id。因為登錄后我們可以使用su切換用戶身份，所以uid和euid可能是不同的，程序在運行的時候一般看的都是euid，當然也有特出的，who am i就是一個。

舉個例子：用戶用ABC登陸，使用su變成root，用who am i看到的是ABC，使用whoami命令看到的是root。

login: u1

Password:

$ su

Password:

# /usr/ucb/whoami

root

# who am i

u1 pts/4 10月 31 23:18 (192.168.0.1)

posted @ 2008-09-24 16:16 cc 閱讀(195) | 評論 (0) | 編輯收藏

posted @ 2007-01-20 09:01 cc 閱讀(343) | 評論 (0) | 編輯收藏

俗話說,工欲善其事，必先利其器,如果大家對開發程序稍微有點發燒的話,都知道快捷鍵對編程中有多大的作用了(當然當年Dos用natepad開發程序的除外了),我就是這樣一個發燒友了, 對各種IDE中的快捷功能頗感興趣,尤其是對快捷鍵這一部分樂此不彼了.再加上Eclipse又是本人的最愛,因此Eclipse中的快捷鍵就是本人重視的重點了,當然,Eclipse的快捷鍵暫時不是最強的,本人見過快捷鍵最優秀的IDE還是當屬IDEA了,里面的快捷鍵為程序員考慮的面面俱到,幾乎到了只要你想不到,沒有按不到的地步了(嘻,好像給它做廣告了).不過說實話很多功能都是Eclipse借鑒Idea過來的了.但至今我發現在快捷鍵這方面和別的智能開發方面Eclipse還是稍遜一籌了(這僅僅是從Java IDE的角度),廢話少說,直接就切入正題了.

今天寫的這些快捷鍵都是本人在實際運用中總結出來的,自己感覺很實用,都是以自己的喜好程度來排列了,對于的Eclipse如果沒有特別說明都使用有 Eclipse3.0.X以上了,個別如果出現不符合的話要么是版本的問題,要么是和別的系統級的快捷鍵有沖突,譬如輸入法的沖突了,這時就需要修改輸入法了.下面的快捷鍵都是Eclipse特有的,尤其是針對Java Editer的,但有些對Eclipse里面的Text也是實用的了,下面就是這些快捷鍵了(住:這些快捷鍵隨著自己學習不斷的深入和Eclipse版本不斷的提高會慢慢的完善的,有些太普通的就沒有列出來,如Ctrl+A一類):

Ctrl+1 快速修復(最經典的快捷鍵,就不用多說了)

Ctrl+D: 刪除當前行

Ctrl+Alt+↓ 復制當前行到下一行(復制增加)

Ctrl+Alt+↑ 復制當前行到上一行(復制增加)

Alt+↓ 當前行和下面一行交互位置(特別實用,可以省去先剪切,再粘貼了)

Alt+↑ 當前行和上面一行交互位置(同上)

Alt+← 前一個編輯的頁面

Alt+→ 下一個編輯的頁面(當然是針對上面那條來說了)

Alt+Enter 顯示當前選擇資源(工程,or 文件 or文件)的屬性

Shift+Enter 在當前行的下一行插入空行(這時鼠標可以在當前行的任一位置,不一定是最后)

Shift+Ctrl+Enter 在當前行插入空行(原理同上條)

Ctrl+Q 定位到最后編輯的地方

Ctrl+L 定位在某行 (對于程序超過100的人就有福音了)

Ctrl+M 最大化當前的Edit或View (再按則反之)

Ctrl+/ 注釋當前行,再按則取消注釋

Ctrl+O 快速顯示 OutLine

Ctrl+T 快速顯示當前類的繼承結構

Ctrl+W 關閉當前Editer

Ctrl+K 參照選中的Word快速定位到下一個

Ctrl+E 快速顯示當前Editer的下拉列表(如果當前頁面沒有顯示的用黑體表示)

Ctrl+/(小鍵盤) 折疊當前類中的所有代碼

Ctrl+×(小鍵盤) 展開當前類中的所有代碼

Ctrl+Space 代碼助手完成一些代碼的插入(但一般和輸入法有沖突,可以修改輸入法的熱鍵,也可以暫用Alt+/來代替)

Ctrl+Shift+E 顯示管理當前打開的所有的View的管理器(可以選擇關閉,激活等操作)

Ctrl+J 正向增量查找(按下Ctrl+J后,你所輸入的每個字母編輯器都提供快速匹配定位到某個單詞,如果沒有,則在stutes line中顯示沒有找到了,查一個單詞時,特別實用,這個功能Idea兩年前就有了)

Ctrl+Shift+J 反向增量查找(和上條相同,只不過是從后往前查)

Ctrl+Shift+F4 關閉所有打開的Editer

Ctrl+Shift+X 把當前選中的文本全部變味小寫

Ctrl+Shift+Y 把當前選中的文本全部變為小寫

Ctrl+Shift+F 格式化當前代碼

Ctrl+Shift+P 定位到對于的匹配符(譬如{}) (從前面定位后面時,光標要在匹配符里面,后面到前面,則反之)

下面的快捷鍵是重構里面常用的,本人就自己喜歡且常用的整理一下(注:一般重構的快捷鍵都是Alt+Shift開頭的了)

Alt+Shift+R 重命名 (是我自己最愛用的一個了,尤其是變量和類的Rename,比手工方法能節省很多勞動力)

Alt+Shift+M 抽取方法 (這是重構里面最常用的方法之一了,尤其是對一大堆泥團代碼有用)

Alt+Shift+C 修改函數結構(比較實用,有N個函數調用了這個方法,修改一次搞定)

Alt+Shift+L 抽取本地變量( 可以直接把一些魔法數字和字符串抽取成一個變量,尤其是多處調用的時候)

Alt+Shift+F 把Class中的local變量變為field變量 (比較實用的功能)

Alt+Shift+I 合并變量(可能這樣說有點不妥Inline)

Alt+Shift+V 移動函數和變量(不怎么常用)

Alt+Shift+Z 重構的后悔藥(Undo)BR>

posted @ 2007-01-20 09:00 cc 閱讀(7178) | 評論 (0) | 編輯收藏

Alt+/:代碼提示
Ctrl+/:注釋/取消注釋
Ctrl+D:刪除光標所在行
Ctrl+K:將光標停留在變量上，按Ctrl+K鍵可以查找到下一個同樣的變量? (有不好用的時候)
Shift+Ctrl+K:和Ctrl+K查找的方向相反? (有不好用的時候)
Shift+Ctrl+F:代碼格式化。如果選擇了代碼，僅對所選代碼格式化
Shift+Ctrl+O:快速地導入import? (好像是自動導入所需的包)
Shift+Ctrl+X:將所選字符轉為大寫
Shift+Ctrl+Y:將所選字符轉為小寫
Ctrl+M:快速對當前視圖最大化
Ctrl+O:在代碼中打開類似大綱視圖的小窗口
Ctrl+單擊:可以跟蹤方法和類的源碼
Alt+左右方向鍵:跳到前一次/后一次的編輯位置。
Ctrl+鼠標停留:可以顯示類和方法的源碼
雙擊左括號（小括號、中括號、大括號），將選擇括號內的所有內容。
Ctrl+1:光標停在某變量上，按Ctrl+1鍵，可以提供快速重構方案。選中若干行，按Ctrl+1鍵可將此段代碼放入for、while、if、do或try等代碼塊中。
F3:打開聲明該引用的文件
F4:打開類型層次結構
F5:單步跳入
F6:單步跳過
F7:單步跳出
F8:繼續，如果后面沒有斷點，程序將運行完
Ctrl+H:打開搜索窗口
Ctrl+Shift+S:保存全部
Alt+Left:回退一步[[BR]] Alt+Right:前跳一步[[BR]] Ctrl+Shift+T:打開類型
Ctrl+Shift+R:打開資源
Ctrl+Q:回到最后一次編輯的地方
Ctrl+Shift+G: 在workspace中搜索引用
Ctrl+Alt+Down: 復制高亮顯示的一行或多行
Alt+Up(Down):將一行或者多行向上或者向下移動

據說熟練運用這些快捷方式的時候,會被懷疑在打游戲......

Ctrl+1 快速修復(最經典的快捷鍵,就不用多說了)? （不會用）
Ctrl+D: 刪除當前行
Ctrl+Alt+↓ 復制當前行到下一行(復制增加)
Ctrl+Alt+↑ 復制當前行到上一行(復制增加)
Alt+↓ 當前行和下面一行交互位置(特別實用,可以省去先剪切,再粘貼了)
Alt+↑ 當前行和上面一行交互位置(同上)
Alt+← 前一個編輯的頁面
Alt+→ 下一個編輯的頁面(當然是針對上面那條來說了)
Alt+Enter 顯示當前選擇資源(工程,or 文件 or文件)的屬性
Shift+Enter 在當前行的下一行插入空行(這時鼠標可以在當前行的任一位置,不一定是最后)
Shift+Ctrl+Enter 在當前行插入空行(原理同上條)
Ctrl+Q 定位到最后編輯的地方
Ctrl+L 定位在某行 (對于程序超過100的人就有福音了)
Ctrl+M 最大化當前的Edit或View (再按則反之)
Ctrl+/ 注釋當前行,再按則取消注釋
Ctrl+O 快速顯示 OutLine
Ctrl+T 快速顯示當前類的繼承結構
Ctrl+W 關閉當前Editer
Ctrl+K 參照選中的Word快速定位到下一個
Ctrl+E 快速顯示當前Editer的下拉列表(如果當前頁面沒有顯示的用黑體表示)
Ctrl+/(小鍵盤) 折疊當前類中的所有代碼
Ctrl+×(小鍵盤) 展開當前類中的所有代碼
Ctrl+Space 代碼助手完成一些代碼的插入(但一般和輸入法有沖突,可以修改輸入法的熱鍵,也可以暫用Alt+/來代替)
Ctrl+Shift+E 顯示管理當前打開的所有的View的管理器(可以選擇關閉,激活等操作)
Ctrl+J 正向增量查找(按下Ctrl+J后,你所輸入的每個字母編輯器都提供快速匹配定位到某個單詞,如果沒有,則在stutes line中顯示沒有找到了,查一個單詞時,特別實用,這個功能Idea兩年前就有了)
Ctrl+Shift+J 反向增量查找(和上條相同,只不過是從后往前查)
Ctrl+Shift+F4 關閉所有打開的Editer
Ctrl+Shift+X 把當前選中的文本全部變味小寫
Ctrl+Shift+Y 把當前選中的文本全部變為小寫
Ctrl+Shift+F 格式化當前代碼
Ctrl+Shift+P 定位到對于的匹配符(譬如{}) (從前面定位后面時,光標要在匹配符里面,后面到前面,則反之)
Ctrl+Shift+R 查找文件
Ctrl+Shift+T 查找類

下面的快捷鍵是重構里面常用的(注:一般重構的快捷鍵都是Alt+Shift開頭的了)
Alt+Shift+R 重命名 (是我自己最愛用的一個了,尤其是變量和類的Rename,比手工方法能節省很多勞動力)
Alt+Shift+M 抽取方法 (這是重構里面最常用的方法之一了,尤其是對一大堆泥團代碼有用)
Alt+Shift+C 修改函數結構(比較實用,有N個函數調用了這個方法,修改一次搞定)
Alt+Shift+L 抽取本地變量( 可以直接把一些魔法數字和字符串抽取成一個變量,尤其是多處調用的時候)
Alt+Shift+F 把Class中的local變量變為field變量 (比較實用的功能)
Alt+Shift+I 合并變量(可能這樣說有點不妥Inline)
Alt+Shift+V 移動函數和變量(不怎么常用)
Alt+Shift+Z 重構的后悔藥(Undo)

posted @ 2007-01-05 19:37 cc 閱讀(158) | 評論 (0) | 編輯收藏

這是第一本給我帶來閱讀快感的技術類書籍。

posted @ 2006-12-27 18:08 cc 閱讀(155) | 評論 (0) | 編輯收藏

【注：本文也發表在http://www.javaresearch.org的bbs中，這里特別聲明，允許該文章在其BBS中不必注明作者及來源】

? 界面技術高手不多，Java程序員中界面技術高手就更少了，這里的界面技術是指以HTML、CSS和Javascript為核心的界面技術，而其中尤其以Javascript技術最為讓許多程序員頭疼。

? 我們知道，Javascript的基本語法和Java有一些相似的地方，因此學起來不是很難，但是要想學好，甚至成為高手卻不是很容易，許多時候是我們沒有時間去學，或者說我們學的不刻苦，但是我覺得也有Javascript自身的原因，對于Javascript而言，目前一個很大的缺陷就是沒有一套完整的基礎類庫，例如目前只有什么Date、String、Object、Array、RegExp等等，而像Hashtable、List、Tree等數據結構都沒有，更不要說像Java一樣的強大的類庫了。

? 其實這個問題已經有人開始在思考了，而且已經有些人意識到要構建這些類庫了，而且在SourceForge中已經有一個開源項目在做這件事情了，你可以訪問 http://www.jsjava.com 或者 http://jsjava.sourceforge.net 了解具體情況，而且上面已經有了一些基礎類庫，例如對哈西表、列表、畫圖的處理等等，而且里面的風格是類Java的，相信對各位會有幫助。

posted @ 2006-11-17 23:16 cc 閱讀(131) | 評論 (0) | 編輯收藏

202.108.255.201

posted @ 2006-11-16 16:10 cc 閱讀(351) | 評論 (0) | 編輯收藏

摘要: 閱讀全文

posted @ 2006-11-16 14:31 cc 閱讀(224) | 評論 (0) | 編輯收藏

在使用JSP的過程中，最使人頭疼的一個問題就是中文亂碼問題，以下是我在軟件開發中遇到的亂碼問題以及解決方法。

　　1、JSP頁面亂碼

　　這種亂碼的原因是應為沒有在頁面里指定使用的字符集編碼，解決方法：只要在頁面開始地方用下面代碼指定字符集編碼即可，

　　2、數據庫亂碼

　　這種亂碼會使你插入數據庫的中文變成亂碼，或者讀出顯示時也是亂碼，解決方法如下：
　　在數據庫連接字符串中加入編碼字符集
　　String Url="jdbc:mysql://localhost/digitgulf?user=root&password=root&useUnicode=true&characterEncoding=GB2312";
　　并在頁面中使用如下代碼：
　　response.setContentType("text/html;charset=gb2312");
　　request.setCharacterEncoding("gb2312");

　　3、中文作為參數傳遞亂碼

　　當我們把一段中文字符作為參數傳遞個另一頁面時，也會出現亂碼情況，解決方法如下：
　　在參數傳遞時對參數編碼，比如
　　RearshRes.jsp?keywords=" + java.net.URLEncoder.encode(keywords)
　　然后在接收參數頁面使用如下語句接收
　　keywords=new String(request.getParameter("keywords").getBytes("8859_1"));

　　4、JSP頁面亂碼加這句?

<%@ page contentType="text/html; charset=gb2312" language="java" import="java.sql.*" errorPage="err.jsp" %>

posted @ 2006-11-11 10:45 cc 閱讀(220) | 評論 (0) | 編輯收藏

摘要: Select 用途：從指定表中取出指定的列的數據語法： SELECT column_name(s) FROM table_name 解釋：從數據庫中選取資料列，并允許從一或多個資料表中，選取一或多個資料... 閱讀全文

posted @ 2006-11-11 10:37 cc 閱讀(364) | 評論 (1) | 編輯收藏

摘要: 閱讀全文

posted @ 2006-09-10 21:11 cc 閱讀(288) | 評論 (0) | 編輯收藏

摘要: 一、準備安裝程序

1、JDK 5.0 安裝程序下載

下載地址：

https://jsecom15b.sun.com/ECom/EComActionServlet
/DownloadPage:~:com.sun.
sunit.sdlc.content.DownloadPageInfo;
jsessionid=502E87C71D77E3BC297C08B35
DAC9AD4;jsessionid=502E87C71D77E3BC297C08B35DAC9AD4

同意協議后，可以下載jdk-1_5_0_05-windows-i586-p.exe。

閱讀全文

cc