91亚洲精品视频,亚洲国产成人久久综合一区77,亚洲国产综合无码一区

oracle 可以用判断某�?存储的是否是数字�?asc �?函数

cc — Wed, 24 Nov 2010 08:25:00 GMT

select distinct ascii (字段) from �?

cc 2010-11-24 16:25 发表评论

cc — Wed, 29 Jul 2009 08:48:00 GMT

文档选项

		打印本页
		��此��作为电子邮件发�?/strong>

�U�别�Q?中��

�?�?/a> (shenyyi@cn.ibm.com), 软�g工程�? IBM 中国软�g开发中�?br />

2008 �q?5 �?29 �?/p>

惌��q�程在断开�q�接后依然保持运行？如果该进�E�已�l�开始运行了该如何补救？如果有大量这�c�需求如何简化操作？

我们�l�常会碰到这��L��问题�Q�用 telnet/ssh ��d��了远�E�的 Linux 服务器，�q�行了一些耗时较长的�Q务， �l�果却由于网�l�的不稳定导致�Q务中途失败。如何让命��o提交后不受本地关闭终端窗�?�|�络断开�q�接的干扰呢�Q�下面�D了一些例子，您可以针对不同的场景选择不同的方式来处理�q�个问题�?/p>

nohup/setsid/&

场景�Q?/span>

如果只是临时有一个命令需要长旉��q�行�Q�什么方法能最��便的保证它在后台�E�_��q�行呢？

hangup 名称的来�?/strong>
�?Unix 的早期版本中�Q�每个终端都会通过 modem 和系�l�通讯。当用户 logout �Ӟ��modem ��׃��挂断�Q�hang up�Q�电话�?同理�Q�当 modem 断开�q�接�Ӟ��׃��l�终端发�?hangup 信号来通知其关闭所有子�q�程�?

解决�Ҏ��Q?/span>

我们知道�Q�当用户注销�Q�logout�Q�或者网�l�断开�Ӟ��l�端会收�?HUP�Q�hangup�Q�信号从而关闭其所有子�q�程。因此，我们的解军_��法就有两�U�途径�Q�要么让�q�程忽略 HUP 信号�Q�要么让�q�程�q�行在新的会话里从而成��Z��属于此终端的子进�E��?

1. nohup

nohup 无疑是我们首先想到的办法。顾名思义�Q�nohup 的用途就是让提交的命令忽�?hangup 信号。让我们先来看一�?nohup 的帮助信息：

NOHUP(1)                        User Commands                        NOHUP(1)
                        NAME
                        nohup - run a command immune to hangups, with output to a non-tty
                        SYNOPSIS
                        nohup COMMAND [ARG]...
                        nohup OPTION
                        DESCRIPTION
                        Run COMMAND, ignoring hangup signals.
                        --help display this help and exit
                        --version
                        output version information and exit

可见�Q�nohup 的��用是十分方便的，只需在要处理的命令前加上 nohup 卛_��Q�标准输出和标准错误�~�省会被重定向到 nohup.out 文�g中。一般我们可在结��֊��?strong>"&"来将命��o同时攑օ�后台�q�行�Q�也可用">filename 2>&1"来更改缺省的重定向文件名�?/p>
nohup �C�Z��

                        [root@pvcent107 ~]# nohup ping www.ibm.com &
                        [1] 3059
                        nohup: appending output to `nohup.out'
                        [root@pvcent107 ~]# ps -ef |grep 3059
                        root      3059   984  0 21:06 pts/3    00:00:00 ping www.ibm.com
                        root      3067   984  0 21:06 pts/3    00:00:00 grep 3059
                        [root@pvcent107 ~]#

2。setsid

nohup 无疑能通过忽略 HUP 信号来��我们的进�E�避免中途被中断�Q�但如果我们换个角度思考，如果我们的进�E�不属于接受 HUP 信号的终端的子进�E�，那么自然也就不会受到 HUP 信号的媄响了。setsid ��p��帮助我们做到�q�一炏V��让我们先来看一�?setsid 的帮助信息：

SETSID(8)                 Linux Programmer’s Manual                 SETSID(8)
                        NAME
                        setsid - run a program in a new session
                        SYNOPSIS
                        setsid program [ arg ... ]
                        DESCRIPTION
                        setsid runs a program in a new session.

可见 setsid 的��用也是非常方便的�Q�也只需在要处理的命令前加上 setsid 卛_��?/p>
setsid �C�Z��

                        [root@pvcent107 ~]# setsid ping www.ibm.com
                        [root@pvcent107 ~]# ps -ef |grep www.ibm.com
                        root     31094     1  0 07:28 ?        00:00:00 ping www.ibm.com
                        root     31102 29217  0 07:29 pts/4    00:00:00 grep www.ibm.com
                        [root@pvcent107 ~]#

值得注意的是�Q�上例中我们的进�E?ID(PID)�?1094�Q�而它的父 ID�Q�PPID�Q��ؓ1�Q�即�?init �q�程 ID�Q�，�q�不是当前终端的�q�程 ID。请��此例与nohup �?/a>中的�?ID 做比较�?/p> 3�?amp;

�q�里�q�有一个关�?subshell 的小技巧。我们知道，��一个或多个命名包含�?#8220;()”中就能让�q�些命��o在子 shell 中运行中�Q�从而扩展出很多有趣的功能，我们现在要讨论的��是其中之一�?/p>

当我们将"&"也放�?#8220;()”内之后，我们��׃��发现所提交的作业�ƈ不在作业列表中，也就是说�Q�是无法通过jobs来查看的。让我们来看看�ؓ什么这样就能躲�q?HUP 信号的媄响吧�?/p>
subshell �C�Z��

                        [root@pvcent107 ~]# (ping www.ibm.com &)
                        [root@pvcent107 ~]# ps -ef |grep www.ibm.com
                        root     16270     1  0 14:13 pts/4    00:00:00 ping www.ibm.com
                        root     16278 15362  0 14:13 pts/4    00:00:00 grep www.ibm.com
                        [root@pvcent107 ~]#

从上例中可以看出�Q�新提交的进�E�的�?ID�Q�PPID�Q��ؓ1�Q�init �q�程�?PID�Q�，�q�不是当前终端的�q�程 ID。因此�ƈ不属于当前终端的子进�E�，从而也��׃��会受到当前终端的 HUP 信号的媄响了�?/p>

回页�?/strong>

disown

场景�Q?/span>

我们已经知道�Q�如果事先在命��o前加�?nohup 或�?setsid ��可以避�?HUP 信号的媄响。但是如果我们未加�Q何处理就已经提交了命令，该如何补救才能让它避�?HUP 信号的媄响呢�Q?

解决�Ҏ��Q?/span>

�q�时惛_�� nohup 或�?setsid 已经为时已晚�Q�只能通过作业调度�?disown 来解册��个问题了。让我们来看一�?disown 的帮助信息：

disown [-ar] [-h] [jobspec ...]
                        Without options, each jobspec is  removed  from  the  table  of
                        active  jobs.   If  the -h option is given, each jobspec is not
                        removed from the table, but is marked so  that  SIGHUP  is  not
                        sent  to the job if the shell receives a SIGHUP.  If no jobspec
                        is present, and neither the -a nor the -r option  is  supplied,
                        the  current  job  is  used.  If no jobspec is supplied, the -a
                        option means to remove or mark all jobs; the -r option  without
                        a  jobspec  argument  restricts operation to running jobs.  The
                        return value is 0 unless a jobspec does  not  specify  a  valid
                        job.

可以看出�Q�我们可以用如下方式来达成我们的目的�?/p>

灉|��q�用 CTRL-z
在我们的日常工作中，我们可以�?CTRL-z 来将当前�q�程挂�v到后台暂停运行，执行一些别的操作，然后再用 fg 来将挂�v的进�E�重新放回前収ͼ�也可�?bg 来将挂�v的进�E�放在后収ͼ��l�箋�q�行。这��h��们就可以在一个终端内灉|��切换�q�行多个��d��Q�这一点在调试代码时尤为有用。因为将代码�~�辑器挂起到后台再重新放回时�Q�光标定位仍然停留在上次挂�v时的位置�Q�避免了重新定位的麻烦�?

�?code>disown -h jobspec 来��某个作业忽略HUP信号�?
�?code>disown -ah 来��所有的作业都忽略HUP信号�?
�?code>disown -rh 来��正在�q�行的作�?/strong>忽略HUP信号�?

需要注意的是，当��用过 disown 之后�Q�会��把目标作业从作业列表中�U�除�Q�我们将不能再��?code>jobs来查看它�Q�但是依然能够用ps -ef查找到它�?/p>
但是�q�有一个问题，�q�种�Ҏ��的操作对象是作业�Q�如果我们在�q�行命��o时在�l�尾加了"&"来��它成��Z��个作业�ƈ在后台运行，那么��׃��事大吉了�Q�我们可以通过jobs命��o来得到所有作业的列表。但是如果�ƈ没有把当前命令作��Z��业来�q�行�Q�如何才能得到它的作业号呢？�{�案��是�?CTRL-z�Q�按住Ctrl键的同时按住z键）了！

CTRL-z 的用途就是将当前�q�程挂�v�Q�Suspend�Q�，然后我们��可以用jobs命��o来查询它的作业号�Q�再�?code>bg jobspec 来将它放入后台�ƈ�l�箋�q�行。需要注意的是，如果挂�v会媄响当前进�E�的�q�行�l�果�Q�请慎用此方法�?/p>
disown �C�Z��1�Q�如果提交命令时已经�?#8220;&”��命令放入后台运行，则可以直接��?#8220;disown”�Q?/strong>

[root@pvcent107 build]# cp -r testLargeFile largeFile & [1] 4825 [root@pvcent107 build]# jobs [1]+ Running cp -i -r testLargeFile largeFile & [root@pvcent107 build]# disown -h %1 [root@pvcent107 build]# ps -ef |grep largeFile root 4825 968 1 09:46 pts/4 00:00:00 cp -i -r testLargeFile largeFile root 4853 968 0 09:46 pts/4 00:00:00 grep largeFile [root@pvcent107 build]# logout

disown �C�Z��2�Q�如果提交命令时未��?#8220;&”��命令放入后台运行，可��?CTRL-z �?#8220;bg”��其攑օ�后台�Q�再使用“disown”�Q?/strong>

[root@pvcent107 build]# cp -r testLargeFile largeFile2 [1]+ Stopped cp -i -r testLargeFile largeFile2 [root@pvcent107 build]# bg %1 [1]+ cp -i -r testLargeFile largeFile2 & [root@pvcent107 build]# jobs [1]+ Running cp -i -r testLargeFile largeFile2 & [root@pvcent107 build]# disown -h %1 [root@pvcent107 build]# ps -ef |grep largeFile2 root 5790 5577 1 10:04 pts/3 00:00:00 cp -i -r testLargeFile largeFile2 root 5824 5577 0 10:05 pts/3 00:00:00 grep largeFile2 [root@pvcent107 build]#

回页�?/strong>

screen

场景�Q?/span>

我们已经知道了如何让�q�程免受 HUP 信号的媄响，但是如果有大量这�U�命令需要在�E�_��的后台里�q�行�Q�如何避免对每条命��o都做�q�样的操作呢�Q?

解决�Ҏ��Q?/span>

此时最方便的方法就�?screen 了。简单的��_��screen 提供�?ANSI/VT100 的终端模拟器�Q��它能够在一个真实终端下�q�行多个全屏的伪�l�端。screen 的参数很多，��h��很强大的功能�Q�我们在此仅介绍其常用功能以及简要分析一下�ؓ什么��?screen 能够避免 HUP 信号的媄响。我们先看一�?screen 的帮助信息：

SCREEN(1) SCREEN(1) NAME screen - screen manager with VT100/ANSI terminal emulation SYNOPSIS screen [ -options ] [ cmd [ args ] ] screen -r [[pid.]tty[.host]] screen -r sessionowner/[[pid.]tty[.host]] DESCRIPTION Screen is a full-screen window manager that multiplexes a physical terminal between several processes (typically interactive shells). Each virtual terminal provides the functions of a DEC VT100 terminal and, in addition, several control functions from the ISO 6429 (ECMA 48, ANSI X3.64) and ISO 2022 standards (e.g. insert/delete line and support for multiple character sets). There is a scrollback history buffer for each virtual terminal and a copy-and-paste mechanism that allows moving text regions between windows.

使用 screen 很方便，有以下几个常用选项�Q?/p>

�?code>screen -dmS session name 来徏立一个处于断开模式下的会话�Q��ƈ指定其会话名�Q��?
�?code>screen -list 来列出所有会话�?
�?code>screen -r session name 来重新连接指定会话�?
用快捷键CTRL-a d 来暂时断开当前会话�?

screen �C�Z��

[root@pvcent107 ~]# screen -dmS Urumchi [root@pvcent107 ~]# screen -list There is a screen on: 12842.Urumchi (Detached) 1 Socket in /tmp/screens/S-root. [root@pvcent107 ~]# screen -r Urumchi

当我们用“-r”�q�接�?screen 会话后，我们��可以在�q�个伪终端里面�ؓ所�Ʋ�ؓ�Q�再也不用担�?HUP 信号会对我们的进�E�造成影响�Q�也不用�l�每个命令前都加�?#8220;nohup”或�?#8220;setsid”了。这是�ؓ什么呢�Q�让我来看一下下面两个例子吧�?/p>
1. 未��?screen 时新�q�程的进�E�树

[root@pvcent107 ~]# ping www.google.com & [1] 9499 [root@pvcent107 ~]# pstree -H 9499 init─┬─Xvnc ├─acpid ├─atd ├─2*[sendmail] ├─sshd─�?/span>─sshd───bash───pstree �? └─sshd───bash───ping

我们可以看出�Q�未使用 screen 时我们所处的 bash �?sshd 的子�q�程�Q�当 ssh 断开�q�接�Ӟ��HUP 信号自然会媄响到它下面的所有子�q�程�Q�包括我们新建立�?ping �q�程�Q��?/p>
2. 使用�?screen 后新�q�程的进�E�树

[root@pvcent107 ~]# screen -r Urumchi [root@pvcent107 ~]# ping www.ibm.com & [1] 9488 [root@pvcent107 ~]# pstree -H 9488 init─┬─Xvnc ├─acpid ├─atd ├─screen───bash───ping ├─2*[sendmail]

而��用了 screen 后就不同了，此时 bash �?screen 的子�q�程�Q��?screen �?init�Q�PID�?�Q�的子进�E�。那么当 ssh 断开�q�接�Ӟ��HUP 信号自然不会影响�?screen 下面的子�q�程了�?/p>

回页�?/strong>

�ȝ��

现在几种�Ҏ��已经介绍完毕�Q�我们可以根据不同的场景来选择不同的方案。nohup/setsid 无疑是��旉��要时最方便的方法，disown 能帮助我们来事后补救当前已经在运行了的作业，�?screen 则是在大扚w��操作时不二的选择了�?/p>

参考资�?

“�pȝ��理员工具包�Q�进�E�管理技�?/a>”�Q�developerWorks 中国�Q?006 �q?5 月）介绍�?Linux �q�程��理的更多技巧�?br />

“Linux 技巧：使用 screen ��理你的�q�程会话”�Q�developerWorks 中国�Q?007 �q?7 月）介绍�?screen 的更多技巧�?br />

�?developerWorks 中国�|�站 Linux 专区中学习更�?Linux 斚w��的知识�?/li>

关于作�?/span>

��x��Q�IBM 中国软�g开发中�?WebSphere Portal 部门软�g工程师�?/p>

�Ҏ��文的评�h

太差�Q?(1)

需提高 (2)

一般；��可 (3)

好文�?(4)

真棒�Q?5)

��Q?/strong>

回页�?/strong>

IBM 公司保留�?developerWorks �|�站上发表的内容的著作权。未�l�IBM公司或原始作者的书面明确许可�Q�请勿�{载。如果您希望转蝲�Q�请通过提交转蝲��h��表单联系我们的编辑团队�?/span>

cc 2009-07-29 16:48 发表评论

tr

cc — Fri, 10 Jul 2009 15:53:00 GMT

1、关于tr
   通过使用 tr�Q�您可以非常�Ҏ��地实�?sed 的许多最基本功能。您可以��?tr 看作�?sed 的（极其�Q�简化的变体�Q�它可以用一个字�W�来替换另一个字�W�，或者可以完全除��M��些字�W�。您也可以用它来除去重复字符。这��是所�?tr 所能够做的�?br />        tr用来从标准输入中通过替换或删除操作进行字�W��{换。tr主要用于删除文�g中控制字�W�或�q�行字符转换。��用tr时要转换两个字符�Ԍ��字符�?用于查询�Q?字符�?用于处理各种转换。tr刚执行时�Q�字�W�串1中的字符被映��到字符�?中的字符�Q�然后�{换操作开始�?br /> 带有最常用选项的tr命��o格式为：
tr -c -d -s ["string1_to_translate_from"] ["string2_to_translate_to"] < input-file
�q�里�Q?br /> -c 用字�W�串1中字�W�集的补集替换此字符集，要求字符集�ؓASCII�?br /> -d 删除字符�?中所有输入字�W��?br /> -s 删除所有重复出现字�W�序列，只保留第一个；卛_��重复出现字符串压�~��ؓ一个字�W�串�?br /> input-file是�{换文件名。虽然可以��用其他格式输入，但这�U�格式最常用�?br /> 2、字�W�范�?br /> 指定字符�?或字�W�串2的内�Ҏ��Q�只能��用单字符或字�W�串范围或列表�?br /> [a-z] a-z内的字符�l�成的字�W�串�?br /> [A-Z] A-Z内的字符�l�成的字�W�串�?br /> [0-9] 数字丌Ӏ?br /> \octal 一个三位的八进制数�Q�对应有效的ASCII字符�?br /> [O*n] 表示字符O重复出现指定�ơ数n。因此[O*2]匚w��OO的字�W�串�?br /> tr中特定控制字�W�的不同表达方式
速记�W�含义八�q�制方式
\a Ctrl-G 铃声\007
\b Ctrl-H 退格符\010
\f Ctrl-L 走行换页\014
\n Ctrl-J 新行\012
\r Ctrl-M 回�R\015
\t Ctrl-I tab键\011
\v Ctrl-X \030
3、应用例�?br /> �Q?�Q�去除oops.txt里面的重复的��写字符
tr -s "[a-z]"result.txt
�Q?�Q�删除空�?br /> tr -s "[\012]" < plan.txt �?tr -s ["\n"] < plan.txt
�Q?�Q�有旉��要删除文件中的^M�Q��ƈ代之以换�?br /> tr -s "[\015]" "[\n]" < file �?tr -s "[\r]" "[\n]" < file
�Q?�Q�大写到��写
cat a.txt |tr "[a-z]" "[A-Z]" >b.txt
�Q?�Q�删除指定字�W?br />     一个星期的日程表。�Q务是从其中删除所有数字，只保留日期。日期有大写�Q�也有小写格式。因此需指定两个字符范围[a-z]和[A-Z]�Q�命令tr -cs "[a-z][A-Z]" "[\012*]" ��文件每行所有不包含在[a-z]或[A-Z]�Q�所有希腊字母）的字�W�串攑֜�字符�?中�ƈ转换��Z��新行�?s选项表明压羃所有新行， -c表明保留所有字母不动。原文�g如下�Q�后跟tr命��o�Q?br /> tr -cs "[a-z][A-Z]" "[\012*]" �Q?�Q��{换控制字�W?br />     tr的第一个功能就是�{换控制字�W�，特别是从dos向UNIX下蝲文�g�Ӟ��忘记讄��ftp关于回�R换行转换的选项时更是如此。cat -v filename 昄��控制字符�?br />     cat -v stat.txt
    box aa^^^^^12^M
    apple bbas^^^^23^M
    ^Z
猜想‘^ ^ ^ ^ ^ ^’是tab键。每一行以Ctrl-M�l�尾�Q�文件结��Ctrl-Z�Q�以下是改动�Ҏ��?br /> 使用-s选项�Q�查看ASCII表。^的八�q�制代码�?36�Q�^M�?15�Q�tab键是011�Q�^Z�?32 ,下面��按步骤完成最�l�功能�?br /> 用tab键替换^ ^ ^ ^ ^ ^�Q�命令�ؓ"\136" "[\011*]"。将�l�果重定向到临时工作文�gstat.tmp
tr -s "[\136]" "[\011*]" stat.tmp
用新行替换每行末��^M�Q��ƈ用\n去除^Z�Q�输入要来自于��时工作文件stat.tmp�?br /> tr -s "[\015][\032]" "\n" 要删除所有的tab键，代之以空��|��使用命��o
tr -s "[\011]" "[\040*]" �Q?�Q�替换passwd文�g中所有冒��P��代之以tab键，可以增加可读�?br /> tr -s "[:]" "[\011]" < /etc/passwd �?tr -s "[:]" "[\t]" < /etc/passwd
�Q?�Q��路径��h��可读�?br />     如果�?echo $PATH 或�?echo $LD_LIBRARY_PATH �{�类似的命��o来显�C��\径信息的话，我们看到的将会是一大堆用冒可��接在一��L��路径�Q?tr命��o可以把这些冒可��{换�ؓ回�R�Q�这��P��q�些路径��具有很好的可读性了
echo $PATH | tr ":" "\n"
�Q?�Q�可以在vi内��用所有这些命令！只要��C��Q�在tr命��o前要加上您希望处理的行范围和感叹�?�Q�！�Q�，�?1,$!tr -d '\t'�Q�美元符可��C�最后一行）�?br /> �Q?0�Q�另外，当有人给您发送了一个在 Mac OS �?DOS/Windows 机器上创建的文本文�g�Ӟ��您会发现tr非常有用�?br />     如果没有��文件保存�ؓ使用 UNIX 换行�W�来表示行结束这�U�格式，则需要将�q�样的文件�{换成本机 UNIX 格式�Q�否则一些命令实用程序不会正��地处理�q�些文�g。Mac OS 的行��以回�R字符(\r)�l�束�Q�许多文本处理工具将�q�样的文件作��Z��行来处理。�ؓ了纠正这个问题，可以用下列技巧：
Mac -> UNIX�Q�tr "\r" "\n" unixfile
UNIX -> Mac�Q�tr "\n" "\r" macfile
Microsoft DOS/Windows �U�定�Q�文本的每行以回车字�W?\r)�q�后跟换行符(\n)�l�束。�ؓ了纠正这个问题，可以使用下列命��o�Q?br /> DOS -> UNIX�Q�tr -d "\r" unixfile
UNIX -> DOS�Q�在�q�种情况下，需要用awk�Q�因为tr不能插入两个字符来替换一个字�W�。要使用�?awk 命��o�?awk '{ print $0"\r" }' dosfile

cc 2009-07-10 23:53 发表评论

Linux操作�pȝ��下��Y件的安装�Ҏ��大全

cc — Thu, 13 Nov 2008 16:25:00 GMT

一、rpm包安装方式步骤：

1、找到相应的软�g包，比如soft.version.rpm�Q�下载到本机某个目录�Q?

2、打开一个终端，su -成root用户�Q?

3、cd soft.version.rpm所在的目录�Q?

4、输入rpm -ivh soft.version.rpm

二、deb包安装方式步骤：

1、找到相应的软�g包，比如soft.version.deb�Q�下载到本机某个目录�Q?

2、打开一个终端，su -成root用户�Q?

3、cd soft.version.deb所在的目录�Q?

4、输入dpkg -i soft.version.deb

三、tar.gz源代码包安装方式�Q?

1、找到相应的软�g包，比如soft.tar.gz�Q�下载到本机某个目录�Q?

2、打开一个终端，su -成root用户�Q?

3、cd soft.tar.gz所在的目录�Q?

4、tar -xzvf soft.tar.gz //一般会生成一个soft目录

5、cd soft

6�?/configure

7、make

8、make install

四、tar.bz2源代码包安装方式�Q?

1、找到相应的软�g包，比如soft.tar.bz2�Q�下载到本机某个目录�Q?

2、打开一个终端，su -成root用户�Q?

3、cd soft.tar.bz2所在的目录�Q?

4、tar -xjvf soft.tar.bz2 //一般会生成一个soft目录

5、cd soft

6�?/configure

7、make

8、make install

五、apt方式安装�Q?

1、打开一个终端，su -成root用户�Q?

2、apt-cache search soft 注：soft是你要找的��Y件的名称或相关信�?

3、如�?中找��C��软�gsoft.version�Q�则用apt-get install soft.version命��o�?

装��Y�?注：只要你可以上�|�，只需要用apt-cache search查找软�g�Q�用apt-get

install软�g

六、bin文�g安装�Q?

如果你下载到的��Y件名是soft.bin�Q�一般情况下是个可执行文�Ӟ��安装�Ҏ��如下�Q?

1、打开一个终端，su -成root用户�Q?

2、chmod +x soft.bin

3�?/soft.bin //�q�行�q�个命��o��可以安装��Y件了

七、不需要安装的软�g�Q?

有了些��Y�Ӟ��比如lumaqq�Q�是不需要安装的�Q�自带jre解压�~�后可直接运行。假�?

下蝲的是lumaqq.tar.gz�Q��用方法如下：

1、打开一个终端，su -成root用户�Q?

2、tar -xzvf lumaqq.tar.gz //�q�一步会生成一个叫LumaQQ的目�?

3、cd LumaQQ

4、chmod +x lumaqq //讄��lumaqq�q�个�E�序文�g为可�q�行

5、此时就可以�q�行lumaqq了，用命�?/lumaqq卛_��Q�但每次�q�行要输入全路径�?

切换到刚才生成的LumaQQ目录�?

6、�ؓ了保证不讄��路径��可以用�Q�你可以�?bin目录下徏立一个lumaqq的链接，

用命令ln -s lumaqq /bin/ 卛_��Q�以后�Q何时候打开一个终端输入lumaqq��可�?

启动QQ聊天软�g�?

7�?如果你要想lumaqq有个菜单��，使用菜单�~�辑工具�Q�比如Alacarte Menu

Editor�Q�找��C��面生成的LumaQQ目录里的lumaqq讄��一个菜单项��可以了�Q�当然你

也可以直接到 /usr/share/applications目录�Q�按照里面其�?.desktop文�g的格

式生成一个自��q��desktop文�g卛_��?/p>

cc 2008-11-14 00:25 发表评论

cc — Thu, 13 Nov 2008 16:10:00 GMT

Linux下常用压�~�格式的压羃与解压方�?/h5>
解包�Q�tar xvf FileName.tar
打包�Q�tar cvf FileName.tar DirName
�Q�注�Q�tar是打包，不是压羃�Q�）
---------------------------------------------
.gz
解压1�Q�gunzip FileName.gz
解压2�Q�gzip -d FileName.gz
压羃�Q�gzip FileName
.tar.gz
解压�Q�tar zxvf FileName.tar.gz
压羃�Q�tar zcvf FileName.tar.gz DirName
---------------------------------------------
.bz2
解压1�Q�bzip2 -d FileName.bz2
解压2�Q�bunzip2 FileName.bz2
压羃�Q?bzip2 -z FileName
.tar.bz2
解压�Q�tar jxvf FileName.tar.bz2
压羃�Q�tar jcvf FileName.tar.bz2 DirName
---------------------------------------------
.bz
解压1�Q�bzip2 -d FileName.bz
解压2�Q�bunzip2 FileName.bz
压羃�Q?span style="color: rgb(255,165,0)">未知
.tar.bz
解压�Q�tar jxvf FileName.tar.bz
压羃�Q?span style="color: rgb(255,165,0)">未知
---------------------------------------------
.Z
解压�Q�uncompress FileName.Z
压羃�Q�compress FileName
.tar.Z
解压�Q�tar Zxvf FileName.tar.Z
压羃�Q�tar Zcvf FileName.tar.Z DirName
---------------------------------------------
.tgz
解压�Q�tar zxvf FileName.tgz
压羃�Q?span style="color: rgb(255,165,0)">未知
.tar.tgz
解压�Q�tar zxvf FileName.tar.tgz
压羃�Q�tar zcvf FileName.tar.tgz FileName
---------------------------------------------
.zip
解压�Q�unzip FileName.zip
压羃�Q�zip FileName.zip DirName
---------------------------------------------
.rar
解压�Q�rar a FileName.rar
压羃�Q�rar e FileName.rar

rar请到�Q?a target="_blank">http://www.rarsoft.com/download.htm 下蝲�Q?br /> 解压后请��rar_static拯��?usr/bin目录�Q�其他由$PATH环境变量指定的目录也可以�Q�：
[root@www2 tmp]# cp rar_static /usr/bin/rar
---------------------------------------------
.lha
解压�Q�lha -e FileName.lha
压羃�Q�lha -a FileName.lha FileName

lha请到�Q?a target="_blank">http://www.infor.kanazawa-it.ac.jp/~ishii/lhaunix/下蝲�Q?br /> 解压后请��lha拯��?usr/bin目录�Q�其他由$PATH环境变量指定的目录也可以�Q�：
[root@www2 tmp]# cp lha /usr/bin/
---------------------------------------------
.tar .tgz .tar.gz .tar.Z .tar.bz .tar.bz2 .zip .cpio .rpm .deb .slp .arj .rar .ace .lha .lzh .lzx .lzs .arc .sda .sfx .lnx .zoo .cab .kar .cpt .pit .sit .sea
解压�Q�sEx x FileName.*
压羃�Q�sEx a FileName.* FileName

sEx只是调用相关�E�序�Q�本�w��ƈ无压�~�、解压功能，��h��意！
sEx请到�Q?a target="_blank">http://sourceforge.net/projects/sex下蝲�Q?br /> 解压后请��sEx拯��?usr/bin目录�Q�其他由$PATH环境变量指定的目录也可以�Q�：
[root@www2 tmp]# cp sEx /usr/bin/

cc 2008-11-14 00:10 发表评论

rpm

cc — Thu, 13 Nov 2008 15:23:00 GMT

rpm -qa | grep ****
rpm -ql **** | more
查找软�g是否安装�?

cc 2008-11-13 23:23 发表评论

cc — Thu, 30 Oct 2008 03:34:00 GMT

Google原理�Q�ZT�Q?/p>

�q�篇文章中，我们介绍了google�Q�它是一个大型的搜烦引擎�Q�of a large-scale search engine�Q�的原型�Q�搜索引擎在��文本中应用�q�泛。Google的设计能够高效地抓网��ƈ建立索引�Q�它的查询结果比其它现有�pȝ��都高明。这个原型的全文和超�q�接的数据库臛_��包含24‘000‘000个网��c��我们可以从http://google.stanford.edu/ 下蝲�?/p>

设计搜烦引擎是一��富有挑战性的工作。搜索引擎�ؓ上亿个网��徏立烦引，其中包含大量�q�然不同的词汇。而且每天要回�{�成千上万个查询。在�|�络中，��管大型搜烦引擎非常重要�Q�但是学术界却很��研�I�它。此外由于技术的快速发展和�|�页的大量增加，现在建立一个搜索引擎和三年前完全不同�?/p>

本文详细介绍了我们的大型搜烦引擎�Q�据我们所知，在公开发表的论文中�Q�这是第一��描�q�地如此详细。除了把传统数据搜烦技术应用到如此大量�U�网��中所遇到的问题，�q�有许多新的技术挑战，包括应用��文本中的附加信息改�q�搜索结果�?/p>

本文��解册��个问题，描述如何�q�用��文本中的附加信息，建立一个大型实用系�l�。�Q何�h都可以在�|�上随意发布信息�Q�如何有效地处理�q�些无组�l�的��文本集合，也是本文要关注的问题�?/p>

关键�?nbsp;World Wide Web�Q�搜索引擎，信息��索，PageRank, Google 1 �l�论 Web �l�信息检索带来了新的挑战。Web上的信息量快速增长，同时不断有毫无经验的新用��h��体验Web�q�门艺术。�h们喜�Ƣ用��链接来网上冲��，通常都以�?nbsp;Yahoo�q�样重要的网��|��搜烦引擎开始。大家认为List(目录)有效地包含了大家感兴��的主题�Q�但是它��h��主观性，建立和维护的代�h高，升��慢，不能包括所有深奥的主题。基于关键词的自动搜索引擎通常�q�回太多的低质量的匹配。��问题更遭的是�Q�一些广告�ؓ了赢得�h们的��x��x��设法误导自动搜烦引擎�?/p>

我们建立了一个大型搜索引擎解决了现有�pȝ��中的很多问题。应用超文本�l�构�Q�大大提高了查询质量。我们的�pȝ��命名为google�Q�取名自googol的通俗拼法�Q�即10�?00�ơ方�Q�这和我们的目标建立一个大型搜索引擎不谋而合�?/p>

1.1 �|�络搜烦引擎—升�U�换代（scaling up�Q�：1994-2000 搜烦引擎技术不得不快速升�U�（scale dramatically�Q�跟上成倍增长的web数量�?994�q�_��W�一个Web搜烦引擎�Q�World Wide Web Worm(WWWW)可以��索到110�Q?00个网��和Web的文件。到1994�q?1月，��的搜索引擎声�U�可以检索到2‘000'000 �Q�WebCrawler�Q�至100‘000'000个网�l�文�Ӟ��来自 Search Engine Watch�Q�。可以预见到2000�q�_��可检索到的网��将��过1‘000'000‘000。同�Ӟ��搜烦引擎的访问量也会以惊人的速度增长。在1997�q�的三四月䆾�Q�World Wide Web Worm �q�_��每天收到1500个查询�?/p>

�?997�q?1月，Altavista 声称它每天要处理大约20'000'000个查询。随着�|�络用户的增长，�?000�q�_��自动搜烦引擎每天��处理上亿个查询。我们系�l�的设计目标要解册��多问题，包括质量和可升��性，引入升��搜烦引擎技术（scaling search engine technology�Q�，把它升��到如此大量的数据上�?/p>

1.2 Google�Q�跟上Web的步伐（Scaling with the Web�Q�徏立一个能够和当今web规模盔R��应的搜索引擎会面��许多挑战。抓�|�页技术必��够快�Q�才能跟上网��变化的速度�Q�keep them up to date�Q�。存储烦引和文档的空间必��够大。烦引系�l�必��能够有效地处理上千亿的数据。处理查询必��d��Q�达到每�U�能处理成百上千个查询（hundreds to thousands per second.�Q�。随着Web的不断增长，�q�些��d��变得��来��艰巨。然而硬件的执行效率和成本也在快速增长，可以部分抉|��q�些困难�?/p>

�q�有几个值得注意的因素，如磁盘的寻道旉��Q�disk seek time�Q�，操作�pȝ��的效率（operating system robustness�Q�。在设计Google的过�E�中�Q�我们既考虑了Web的增镉K��度�Q�又考虑了技术的更新。Google的设计能够很好的升��处理��量数据集。它能够有效地利用存储空间来存储索引。优化的数据�l�构能够快速有效地存取�Q�参�?.2节）。进一步，我们希望�Q�相对于所抓取的文本文件和HTML�|�页的数量而言�Q�存储和建立索引的代价尽可能的小�Q�参考附录B�Q�。对于象Google�q�样的集中式�pȝ��Q�采取这些措施得��C��令�h满意的系�l�可升��性（scaling properties�Q��?/p>

1. 3设计目标

1.3.1提高搜烦质量我们的主要目标是提高Web搜烦引擎的质量�?nbsp;1994�q�_��有�h认�ؓ建立全搜索烦引（a complete search index�Q�可以��查找��M��数据都变得容易。根据Best of the Web 1994 -- Navigators �Q?#8220;最好的��D��服务可以使在Web上搜索�Q何信息都很容易（当时所有的数据都可以被��d��Q?#8221;。然�?997�q�的Web��p�E然不同。近来搜索引擎的用户已经证实索引的完整性不是评��h��索质量的唯一标准。用��h��兴趣的搜索结果往往湮没�?#8220;垃圾�l�果Junk result”中。实际上�Q�到1997�q?1月�ؓ止，四大商业搜烦引擎中只有一个能够找到它自己�Q�搜索自己名字时�q�回的前十个�l�果中有它自己）。导致这一问题的主要原因是文档的烦引数目增加了好几个数量��Q�但是用戯��够看的文档数却没有增加。用户仍然只希望看前面几十个搜烦�l�果。因此，当集合增大时�Q�我们就需要工具�ɾl�果�_��Q�在�q�回的前几十个结果中�Q�有��x��档的数量�Q�。由于是从成千上万个有点相关的文档中选出几十个，实际上，相关的概念就是指最好的文档。高�_��非常重要�Q�甚至以响应�Q�系�l�能够返回的有关文档的��L��Q��ؓ代�h。��o人高兴的是利用超文本链接提供的信息有助于改进搜烦和其它应用。尤其是链接�l�构和链接文本，为相��x��的判断和高质量的过滤提供了大量的信息。Google既利用了链接�l�构又用��C��anchor文本�Q�见2.1�?.2 节）�?/p>

1.3.2搜烦引擎的学术研�I��着旉��的流逝，除了发展�q�速，Web��来��商业化�?993�q�_��只有1.5%的Web服务是来�? com域名。到1997�q�_��过�?0%。同�Ӟ��搜烦引擎从学术领域走�q�商业。到现在大多数搜索引擎被公司所有，很少技公开术细节。这��导致搜索引擎技术很大程度上仍然是暗��操作，�q�們֐�做广告（见附录A�Q�。Google的主要目标是推动学术领域在此斚w��的发展，和对它的了解。另一个设计目标是�l�大家一个实用的�pȝ��。应用对我们来说非常重要�Q�因为现代网�l�系�l�中存在大量的有用数据（us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems�Q�。例如，每天有几千万个研�I�。然而，得到�q�些数据却非常困难，主要因�ؓ它们没有商业价倹{��我们最后的设计目标是徏立一个体�pȝ��构能够支持新的关于�v量Web数据的研�I�。�ؓ了支持新研究�Q�Google以压�~�的形式保存了实际所抓到的文档。设计google的目标之一��是要徏立一个环境��其他研究者能够很快进入这个领域，处理��量Web数据�Q�得到满意的�l�果�Q�而通过其它�Ҏ��却很隑־�到结果。系�l�在短时间内被徏立�v来，已经有几��论文用��C�� Google建的数据库，更多的在��h��中。我们的另一个目标是建立一个宇宙空间实验室似的环境�Q�在�q�里研究者甚臛_��生都可以�Ҏ��们的��量Web数据设计或做一些实验�?/p>

2. �pȝ��特点 Google搜烦引擎有两个重要特点，有助于得到高�_�ֺ�的搜索结果�?/p>

�W�一点，应用Web的链接结构计��每个网��늚�Rank��|��U�CؓPageRank�Q�将�?8��详�l�描�q�它�?/p>

�W�二点，Google利用��链接改�q�搜索结果�?/p>

2.1 PageRank:�l�网��|��?nbsp;Web的引用（链接�Q�图是重要的资源�Q�却被当今的搜烦引擎很大�E�度上忽视了。我们徏立了一个包�?18‘000'000个超链接的图�Q�它是一个具有重要意义的��h��。这些图能够快速地计算�|�页的PageRank��|��它是一个客观的标准�Q�较好的�W�合��Z��心目中对一个网��重要程度的评�h�Q�徏立的基础是通过引用判断重要性。因此在web中，PageRank能够优化关键词查询的�l�果。对于大多数的主题，在网��|��题查询中用PageRank优化��单文本匹配，我们得到了��o人惊叹的�l�果�Q�从google.stanford.edu可以得到演示�Q�。对于Google�ȝ��l�中的全文搜索，PageRank也帮了不��忙�?/p>

2.1.1计算PageRank 文献��索中的引用理论用到Web中，引用�|�页的链接数�Q�一定程度上反映了该�|�页的重要性和质量。PageRank发展了这�U�思想�Q�网��间的链接是不��^�{�的�?/p>

PageRank 定义如下: 我们假设T1…Tn指向�|�页A�Q�例如，被引用）。参数d是制动因子，使结果在0�Q?之间。通常d�{�于0.85。在下一节将详细介绍d。C�Q�A�Q�定义�ؓ�|�页 A指向其它�|�页的链接数�Q�网��A的PageRank值由下式�l�出�Q?nbsp;PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的�Ş式，分布到各个网��中�Q�因此所有网��늚�PageRank和是1�?nbsp;PageRank或PR�Q�A�Q�可以用��单的�q�代��法计算�Q�相应规格化Web链接矩阵的主特征向量。中�{�规模的�|�站计算26‘000'000�|�页�?nbsp;PageRank��D��p��几小时。还有一些技术细节超��Z��本文��的范围�?/p>

2.1.2直觉判断 PageRank被看作用戯��为的模型。我们假讄��上冲��是随机的，不断点击链接�Q�从不返回，最�l�烦了，另外随机选一个网��重新开始冲��。随��问一个网��늚�可能性就是它的PageRank倹{��制动因子d是随��问一个网��늃�了的可能性，随机另选一个网��c��对单个�|�页或一�l�网��，一个重要的变量加入到制动因子d中。这允许个�h可以故意地误导系�l�，以得到较高的PageRank倹{��我们还有其它的PageRank��法�Q�见98��c�?/p>

2.2链接描述文字�Q�Anchor Text�Q�我们的搜烦引擎寚w��接文本进行了�Ҏ��的处理。大多数搜烦引擎把链接文字和它所铑֐�的网��（the page that the link is on�Q�联�p��v来。另外，把它和链接所指向的网��联�p��v来。这有几点好处�?/p>

�W�一�Q�通常链接描述文字比网��|��w�更�_��地描�q�该�|�页�?/p>

�W�二�Q�链接描�q�文字可能链向的文档不能被文本搜索引擎检索到�Q�例如图像，�E�序和数据库。有可能使返回的�|�页不能被抓到。注意哪些抓不到的网��将会带来一些问题。在�q�回�l�用户前��不了它们的有效性。这�U�情冉|��索引擎可能返回一个根本不存在的网��，但是有超�U�链接指向它。然而这�U�结果可以被挑出来的�Q�所以此�cȝ��问题很少发生。链接描�q�文字是对被铑֐��|�页的宣传，�q�个思想被用在World Wide Web Worm 中，主要因�ؓ它有助于搜烦非文本信息，能够用少量的已下载文档扩大搜索范围。我们大量应用链接描�q�文字，因�ؓ它有助于提高搜烦�l�果的质量。有效地利用链接描述文字技术上存在一些困难，因�ؓ必须处理大量的数据。现在我们能抓到24‘000'000个网��，已经��索到259‘000'000多个链接描述文字�?/p>

2.3其它特点除了PageRank和应用链接描�q�文字外�Q�Google�q�有一些其它特炏V�?/p>

�W�一,所有hit都有位置信息�Q�所以它可以在搜索中�q�泛应用邻近性（proximity�Q��?/p>

�W�二�Q�Google跟踪一些可视化外表�l�节�Q�例如字受��黑体大号字比其它文字更重要�?/p>

�W�三�Q�知识库存储了原始的全文html�|�页�?/p>

3 有关工作 Web��索研�I�的历史��短。World Wide Web Worm�Q�）是最早的搜烦引擎之一。后来出��C��一些用于学术研�I�的搜烦引擎�Q�现在它们中的大多数被上市公司拥有。与Web的增长和搜烦引擎的重要性相比，有关当今搜烦引擎技术的优秀论文相当��。根据Michael Mauldin�Q�Lycos Inc的首席科学家�Q? �Q?#8220;各种各样的服务（包括Lycos�Q�非常关注这些数据库的细节�?#8221;虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有，对现有商业搜索引擎的�l�果�q�行传递，或徏立小型的个性化的搜索引擎。最后有关信息检索系�l�的研究很多�Q�尤其在有组�l�机构集合（well controlled collections�Q�方面。在下面两节�Q�我们将讨论在信息检索系�l�中的哪些领域需要改�q�以便更好的工作在Web上�?/p>

3.1信息��索信息检索系�l�诞生在几年前，�q�发展迅速。然而大多数信息��索系�l�研�I�的对象是小规模的单一的有�l�织�l�构的集合，例如�U�学论文集，或相关主题的新闻故事。实际上�Q�信息检索的主要基准�Q�the Text Retrieval Conference�Q�）�Q�用��规模的、有�l�织�l�构的集合作为它们的基准�?/p>

大型文集基准只有20GB�Q�相比之下，我们抓到�?4000000个网��占147GB。在TREC上工作良好的�pȝ��Q�在Web上却不一定��生好的结果。例如，标准向量�I�间模型企图�q�回和查询请求最相近的文档，把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下，�q�种�{�略常常�q�回非常短的文档�Q�这些文档往往是查询词再加几个字。例如，查询“Bill Clinton”�Q�返回的�|�页只包�?#8220;Bill Clinton Sucks”�Q�这是我们从一个主要搜索引擎中看到的。网�l�上有些争议�Q�用户应该更准确地表达他们想查询什么，在他们的查询��h��中用更多的词。我们强烈反对这�U�观炏V��如果用��h��“Bill Clinton”�q�样的查询请求，应该得到理想的查询结果，因�ؓ�q�个主题有许多高质量的信息。象所�l�的例子�Q�我们认��Z��息检索标准需要发展，以便有效地处理Web数据�?/p>

3.2有组�l�结构的集合�Q�Well Controlled Collections�Q�与Web的不同点 Web是完全无�l�织的异构的大量文档的集合。Web中的文档无论内在信息�q�是隐含信息都存在大量的异构性。例如，文档内部��q��了不同的语言�Q�既有�h�c�语�a�又有�E�序�Q�，词汇�Q�email地址�Q�链接，邮政�~�码�Q�电话号码，产品��P��Q�类型（文本�Q�HTML�Q�PDF�Q�图像，声音�Q�，有些甚至是机器创建的文�g�Q�log文�g�Q�或数据库的输出�Q�。可以从文档中推断出来，但�ƈ不包含在文档中的信息�U�Cؓ隐含信息。隐含信息包括来源的信誉�Q�更新频率，质量�Q�访问量和引用。不但隐含信息的可能来源各种各样�Q�而且被检��的信息也大不相同，相差可达好几个数量��。例如，一个重要主��늚�使用量，象Yahoo 每天��览数达��C��百万�ơ，于此相比无名的历史文章可能十�q�才被访问一�ơ。很明显�Q�搜索引擎对�q�两�c�M��息的处理是不同的�?nbsp;Web与有�l�织�l�构集合之间的另外一个明昑֌�别是�Q�事实上�Q�向Web上传信息没有��M��限制。灵�z�d��用这点可以发布�Q何对搜烦引擎影响重大的信息，使�\由阻塞，加上为牟利故意操�U�|��索引擎，�q�些已经成�ؓ一个严重的问题。这些问题还没有被传�l�的��闭的信息检索系�l�所提出来。它兛_��的是元数据的努力�Q�这在Web 搜烦引擎中却不适用�Q�因为网��中的�Q何文本都不会向用户声�U�C��图操�U�|��索引擎。甚��x��些公��ؓ牟利专门操纵搜烦引擎�?/p>

4 �pȝ��分析�Q�System Anatomy�Q�首先，我们提供高水�q�的有关体系�l�构的讨论。然后，详细描述重要的数据结构。最后，主要应用�Q�抓�|�页�Q�烦引，搜烦��被严格地检查�?nbsp;Figure 1. High Level Google Architecture 4.1Google体系�l�构概述�q�一节，我们��看看整个系�l�是如何工作的（give a high level�Q�，见图1。本节不讨论应用和数据结构，在后几节中讨论。�ؓ了效率大部分Google是用c或c++实现的，既可以在Solaris也可以在 Linux上运行�?/p>

Google�pȝ��中，抓网��（下蝲�|�页�Q�是由几个分布式crawlers完成的。一个URL服务器负责向crawlers 提供URL列表。抓来的�|�页交给存储服务器storeserver。然后，由存储服务器压羃�|�页�q�把它们存到知识库repository中。每个网��都有一个ID�Q�称作docID�Q�当新URL从网��中分析出时�Q�就被分配一个docID。由索引器和排序器负责徏立烦引index function。烦引器从知识库中读取文档，对其解压�~�和分析。每个文档被转换成一�l�词的出现情况，�U�C��命中hits。Hits�U�录了词�Q�词在文档中的位�|�，最接近的字��P��大小写。烦引器把这些hits分配��C��l�桶barrel中，产生�l�过部分排序后的索引。烦引器的另一个重要功能是分析�|�页中所有的链接�Q�将有关的重要信息存在链接描�q�anchors文�g中。该文�g包含了��够的信息�Q�可以用来判断每个链接链出链入节点的信息�Q�和链接文本�?nbsp;URL分解器resolver阅读链接描述anchors文�g�Q��ƈ把相对URL转换成绝对URL�Q�再转换成docID。�ؓ链接描述文本�~�制索引�Q��ƈ与它所指向的docID兌��h��。同时徏立由docID对组成的链接数据库。用于计��所有文档的PageRank倹{��用docID分类后的barrels�Q�送给排序器sorter�Q�再�Ҏ��wordID�q�行分类�Q�徏立反向烦引inverted index。这个操作要恰到好处�Q�以便几乎不需要暂存空间。排序器�q�给出docID和偏�U�量列表�Q�徏立反向烦引。一个叫DumpLexicon的程序把�q�个列表和由索引器��生的字典�l�合在一��P��建立一个新的字典，供搜索器使用。这个搜索器��是利用一个Web服务器，使用由DumpLexicon所生成的字典，利用上述反向索引以及��面�{��PageRank来回�{�用��L��提问�?nbsp;4.2主要数据�l�构�l�过优化的Google数据�l�构�Q�能够用较小的代��h��取大量文档，建立索引和查询。虽然近几年CPU和输入输出速率�q�速提高。磁盘寻道仍焉��?0ms。�Q何时候Google�pȝ��的设计都��可能地避免��盘寻道。这�Ҏ��据结构的设计影响很大�?/p>

4.2.1大文件大文�g BigFiles是指虚拟文�g生成的多文�g�pȝ��Q�用长度�?4位的整型数据��d��。多文�g�pȝ��之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描�q�符。由于操�U늳��l�不能满��x��们的需要，BigFiles也支持基本的压羃选项�?/p>

4.2.2知识�?nbsp;Figure 2. Repository Data Structure 知识库包含每个网��늚�全部HTML。每个网��는�zlib�Q�见RFC1950�Q�压�~�。压�~�技术的选择既要考虑速度又要考虑压羃率。我们选择zlib的速度而不是压�~�率很高的bzip。知识库用bzip的压�~�率接近4�Q?。而用zlib的压�~�率�?�Q?。文档一个挨着一个的存储在知识库中，前缀是docID�Q�长度，URL�Q�见�?。访问知识库不需要其它的数据�l�构。这有助于数据一致性和升��。用其它数据�l�构重构�pȝ��Q�我们只需要修改知识库和crawler错误列表文�g�?/p>

4.2.3文�g索引文�g索引保存了有��x��档的一些信息。烦引以docID的顺序排列，定宽ISAM�Q�Index sequential access mode�Q�。每条记录包括当前文件状态，一个指向知识库的指针，文�g校验和，各种�l�计表。如果一个文档已�l�被抓到�Q�指针指向docinfo文�g�Q�该文�g的宽度可变，包含了URL和标题。否则指针指向包含这个URL的URL列表。这�U�设计考虑到简�z�的数据�l�构�Q�以及在查询中只需要一个磁盘寻道时间就能够讉K��一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表，按校验和排序。要想知道某个URL的docID�Q�需要计��URL的校验和�Q�然后在校验和文件中执行二进制查找，扑ֈ�它的docID。通过对这个文件进行合�qӞ��可以把一批URL转换成对应的docID。URL分析器用�q�项技术把URL转换成docID。这�U�成�Ҏ��新的模式是至关重要的�Q�否则每个链接都需要一�ơ查询，假如用一块磁盘，322‘000'000个链接的数据集合��花费一个多月的旉��?/p>

4.2.4词典词典有几�U�不同的形式。和以前�pȝ��的重要不同是�Q�词典对内存的要求可以在合理的�h格内。现在实现的�pȝ��Q�一�?56M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇�Q�虽然一些很��用的词汇没有加入到词典中）。它执行分两部分—词汇表�Q�用null分隔的连�l�串�Q�和指针的哈希表。不同的函数�Q�词汇表有一些辅助信息，�q�超��Z��本文��的范围�?/p>

4.2.5 hit list hit list是一��文档中所出现的词的列表，包括位置�Q�字��P��大小写。Hit list占很大空��_��用在正向和反向烦引中。因此，它的表示形式��有效越好。我们考虑了几�U�方案来�~�码位置�Q�字��P��大小写—简单编码（3个整型数�Q�，紧凑�~�码�Q�支持优化分配比特位�Q�，哈夫曼编码。Hit的详�l�信息见�?。我们的紧凑�~�码每个hit�?字节。有两种�c�d��hit�Q�特�D�hit和普通hit。特�D?nbsp;hit包含URL�Q�标题，链接描述文字�Q�meta tag。普通hit包含其它每�g事。它包括大小写特征位�Q�字��P��12比特用于描述词在文档中的位置�Q�所有超�q?095的位�|�标��Cؓ4096�Q�。字号采用相对于文档的其它部分的相对大小表示�Q�占3比特(实际只用7个��|��因�ؓ111标志是特�D�hit)。特�D�hit由大��写特征位，字号位�ؓ7表示它是�Ҏ�� hit�Q�用4比特表示�Ҏ��hit的类型，8比特表示位置。对于anchor hit八比特位�|�位分出4比特用来表示在anchor中的位置�Q?比特用于表明anchor出现的哈希表hash of the docID。短语查询是有限的，�Ҏ��些词没有��_��多的anchor。我们希望更新anchor hit的存储方式，以便解决地址位和docIDhash域位��C��的问题�?/p>

因�ؓ搜烦�Ӟ��你不会因为文档的字号比别的文档大而特�D�对待它�Q�所以采用相对字受��?nbsp;hit表的长度存储在hit前。�ؓ节省�I�间hit表长度，在正向烦引中和wordID�l�合在一��P��在反向烦引中和docID�l�合存储。这��限制它相应地只�?�?比特�Q�用些技巧，可以从wordID中�?bit�Q�如果大于这些比�Ҏ��能表�C�的长度�Q�用溢出码填充，其后两字节是真正的长度�?nbsp;Figure 3. Forward and Reverse Indexes and the Lexicon

4.2.6正向索引实际上，正向索引已经部分排序。它被存在一定数量的barrel中（我们�?4个barrels�Q�。每个barrel装着一定范围的wordID。如果一��文档中的词落到某个 barrel�Q�它的docID��被记录到这个barrel中，紧跟着那些词（文档中所有的词汇�Q�还是落入该barrel中的词汇�Q�对应的hitlist。这�U�模式需要稍多些的存储空��_��因�ؓ一个docID被用多次�Q�但是它节省了桶数和旉��Q�最后排序器�q�行索引旉��低编码的复杂度。更�q�一步的措施是，我们不是存储docID本��n�Q�而是存储相对于该桶最��的docID的差。用�q�种�Ҏ��Q�未排序的barrel的docID只需24位，省下8位记录hitlist �ѝ�?/p>

4.2.7反向索引除了反向索引由sorter加工处理之外�Q�它和正向烦引包含相同的桶。对每个有效的docID�Q�字典包含一个指向该词所在桶的指针。它指向由docID和它的相应hitlist�l�成的doclish�Q�这个doclist代表了所有包含该词的文档�?nbsp;doclist中docID的顺序是一个重要的问题。最��单的解决办法是用doclish排序。这�U�方法合�q�多个词时很快。另一个可选方案是用文档中该词出现的次数排序。这�U�方法回�{�单词查询，所用时间微不��道。当多词查询时几乎是从头开始。�ƈ且当用其它Rank��法改进索引�Ӟ��非常困难。我们综合了�q�两�U�方法，建立两组反向索引barrel�Q�一�l�barrels的hitlist只包含标题和anchor hit�Q�另一�l�barrel包含全部的hitlist。我们首先查�W�一�l�烦引桶�Q�看有没有匹配的��，然后查较大的那组桶�?/p>

4.3抓网��运行网�l�爬行机器�h是一��具有挑战性的��d��。执行的性能和可靠性甚��x��重要�Q�还有一些社会焦炏V��网�l�爬行是一��w��常薄��q��应用�Q�它需要成百上千的web服务器和各种域名服务器的参与�Q�这些服务器不是我们�pȝ��所能控制的。�ؓ了覆盖几十亿的网��，Google拥有快速的分布式网�l�爬行系�l�。一个URL服务器给若干个网�l�爬行机器�h�Q�我们采�?个）提供URL列表。URL服务器和�|�络爬行机器人都是用Python实现的。每个网�l�爬行机器�h可以同时打开300个链接。抓取网��必��够快。最快时�Q�用4个网�l�爬行机器�h每秒可以爬行100个网��c��速率达每�U?00K。执行的重点是找DNS。每个网�l�爬行机器�h有它自己�?nbsp;DNS cache�Q�所以它不必每个�|�页都查DNS。每一百个�q�接都有几种不同的状态：查DNS�Q�连接主机，发送请求，接收回答。这些因素�ɾ|�络爬行机器人成为系�l�比较复杂的部分。它用异步IO处理事�g�Q�若�q�请求队列从一个网站到另一个网站不停的抓取�|�页。运行一个链接到500多万台服务器的网��늈�行机器�h�Q��?nbsp;1千多万登陆口�Q�导致了大量的Email和电话。因为网民众多，��L��些�h不知道网�l�爬行机器�h是何物，�q�是他们看到的第一个网�l�爬行机器�h。几乎每天我们都会收到这��L��Email“哦，你从我们的网站看了太多的�|�页�Q�你惛_��什么？”�q�有一些�h不知道网�l�搜索机器�h避免协议�Q�the robots exclusion protocol�Q�，以�ؓ他们的网��上写着“版权所有，勿被索引”的字样就会被保护不被索引�Q�不必说�Q�这��L��话很难被web crawler理解。因为数据量如此之大�Q�还会遇��C��些意想不到的事情。例如，我们的系�l�曾�l�企图抓一个在�U�游戏，�l�果抓到了游戏中的大量垃圾信息。解册��个问题很��单。但是我们下载了几千万网��后才发��C��q�个问题。因为网��和服务器的�U�类�J�多�Q�实际上不在大部分Internet上运行它��测试一个网��늈�行机器�h是不可能。��L��有几百个隐含的问题发生在整个web的一个网��上�Q�导致网�l�爬行机器�h崩溃�Q�或者更�p�，��D��不可预测的不正确的行为。能够访问大部分Internet的系�l�必��ȝ��力充沛�ƈ�_�ֿ��试�q�。由于象crawler�q�样大型复杂的系�l��L��产生�q�样那样的问题，因此��p��一些资源读�q�些 Email�Q�当问题发生时解军_��Q�是有必要的�?/p>

4.4Web索引分析—�Q何运行在整个Web上的分析器必��能够处理可能包含错误的大型集合。范围从HTML标记到标��C��间几K字节�?�Q�非ASCII字符�Q�几癑ֱ�HTML标记的嵌套，各种各样令�h难以惌��的错误。�ؓ了获得最大的速度�Q�我们没有采用YACC产生上下文无��x��法CFG分析器，而是采用灉|��的方式��生词汇分析器�Q�它自己配有堆栈。分析器的改�q�大大提高了�q�行速度�Q�它的精力如此充沛完成了大量工作。把文档装入barrel建立索引—分析完一��文档，之后把该文档装入barrel中，用内存中的hash表—字典，每个词汇被�{换成一�?nbsp;wordID。当hash表字�怸�加入新的��Ҏ��Q�笨拙地存入文�g。一旦词汇被转换成wordID�Q�它们在当前文档的出现就转换成hitlist�Q�被写进正向barrel。烦引阶�D��ƈ行的主要困难是字兔R��要共享�?/p>

我们采用的方法是�Q�基本字�怸��?40万个固定词汇�Q�不在基本字�怸�的词汇写入日志，而不是共享字典。这�U�方法多个烦引器可以�q�行工作�Q�最后一个烦引器只需处理一个较��的额外词汇日志。排序—�ؓ了徏立反向烦引，排序器读取每个正�?nbsp;barrel�Q�以wordID排序�Q�徏立只有标题anchor hi t的反向烦引barrel和全文反向烦引barrel。这个过�E�一�ơ只处理一个barrel�Q�所以只需要少量暂存空间。排序阶�D�也是�ƈ行的�Q�我们简单地同时�q�行��可能多的排序器�Q�不同的排序器处理不同的桶。由于barrel不适合装入��d��Q�排序器�q�一步依据wordID和docID把它分成若干��子�Q�以侉K��合装入��d��。然后排序器把每个篮子装入主存进行排序，�q�把它的内容写回到短反向barrel和全文反向barrel�?/p>

4.5搜烦搜烦的目标是提供有效的高质量的搜索结果。多数大型商业搜索引擎好像在效率斚w��p��了很大力气。因此我们的研究以搜索质量�ؓ重点�Q�相信我们的解决�Ҏ��也可以用到那些商业系�l�中�?/p>

Google查询评�h�q�程见图4�?/p>

1. 分析查询�?/p>

2. 把词汇�{换成wordID�?/p>

3. 在短barrel中查找每个词汇doclist的开头�?/p>

4. 扫描doclist直到扑ֈ�一��匹配所有关键词的文�?/p>

5. 计算该文档的rank

6. 如果我们在短barrel�Q��ƈ且在所有doclist的末��，开始从全文barrel的doclist的开头查找每个词�Q�goto �W�四�?/p>

7. 如果不在��M��doclist的结��，�q�回�W�四步�?/p>

8. �Ҏ��rank排序匚w��文档�Q�返回前k个。图4 Google查询评�h在有限的响应旉��内，一旦找��C��定数量的匚w��文档�Q�搜索引擎自动执行步�?。这意味着�Q�返回的�l�果是子优化的。我们现在研�I�其它方法来解决�q�个问题。过��L��据PageRank排序hit�Q�看来能够改�q�这�U�状��c�?/p>

4.5.1 Ranking�pȝ�� Google比典型搜索引擎保存了更多的web信息。每个hitlish包括位置�Q�字��P��大小写。另外，我们�q�考虑了链接描�q�文字。Rank�l�合所有这些信息是困难的。ranking函数设计依据是没有某个因素对rank影响重大。首先，考虑最��单的情况—单个词查询。�ؓ了单个词查询中一个文档的 rank�Q�Goole在文档的hitlist中查找该词。Google认�ؓ每个hit是几�U�不同类型（标题�Q�链接描�q�文字anchor�Q�URL�Q�普通大字号文本�Q�普通小字号文本�Q?#8230;…�Q�之一�Q�每�U�有它自��q��c�d��权重。类型权重徏立了一个类型烦引向量。Google计算hitlist中每�U�hit的数量。然后每个hit数�{换成count-weight。Count-weight开始随hit数线性增加，很快逐渐停止�Q�以至于hit��C��此不相关。我们计��?nbsp;count-weight向量和type-weight向量的标量积作�ؓ文档的IR倹{��最后IR值结合PageRank作�ؓ文档的最后rank 对于多词查询�Q�更复杂些。现在，多词hitlist必须同时扫描�Q�以便关键词出现在同一文档中的权重比分别出现时高。相邻词的hit一起匹配。对每个匚w�� hit 的集合计��相��d��。相��d��Z��hit在文档中的距��，分成10个不同的bin��|��范围从短语匹配到�Ҏ��不相兟뀂不仅计��每�c�hit敎ͼ�而且要计��每�U�类型的盔R��度，每个�c�d��怼�度对�Q�有一个类型相��d��权type-prox-weight。Count转换成count-weight�Q�计��count- weight type-proc-weight的标量积作�ؓIR倹{��应用某�U�debug mode所有这些数和矩阵与查询�l�果一��h��C�出来。这些显�C�有助于改进rank�pȝ��?/p>

4.5.2反馈 rank函数有很多参数象type-weight和type-prox-weight。指明这些参数的正确值有炚w��色艺术black art。�ؓ此，我们的搜索引擎有一个用户反馈机制。值得信�Q的用户可以随意地评�h�q�回的结果。保存反馈。然后，当修改rank函数�Ӟ��Ҏ��以前搜烦�?nbsp;rank�Q�我们可以看��C��改带来的的媄响。虽然不是十全十��，但是它给��Z��一些思�\�Q�当rank函数改变时对搜烦�l�果的媄响�?/p>

5执行和结果搜索结果的质量是搜索引擎最重要的度量标准。完全用戯��价体�p�超��Z��本文的论�q�范��_��对于大多数搜索，我们的经验说明Google的搜索结果比那些主要的商业搜索引擎好。作��Z��个应用PageRank�Q�链接描�q�文字，盔R��度的例子�Q�图4�l�出了Google搜烦bill Clinton的结果。它说明了Google的一些特炏V��服务器对结果进行聚�c�R��这对过滤结果集合相当有帮助。这个查询，相当一部分�l�果来自 whitehouse.gov域，�q�正是我们所需要的。现在大多数商业搜烦引擎不会�q�回��M��来自whitehouse.gov的结果，�q�是相当不对的。注意第一个搜索结果没有标题。因为它不是被抓到的。Google是根据链接描�q�文字决定它是一个好的查询结果。同样地�Q�第五个�l�果是一个Email地址�Q�当然是不可能抓到的。也是链接描�q�文字的�l�果。所有这些结果质量都很高�Q�最后检查没有死链接。因为它们中的大部分PageRank��D��高。PageRank 癑ֈ�比用�U�色�U�条表示。没有结果只含Bill没有Clinton或只含Clinton没有Bill。因��出现的相�q�性非帔R��要。当然搜索引擎质量的真实��试包含�q�泛的用户学习或�l�果分析�Q�此处篇�q�有限，误��者自己去体验Google�Q?a >http://google.stanford.edu/�?nbsp;5.1存储需求除了搜索质量，Google的设计可以随着Web规模的增大而有效地增大成本。一斚w��有效地利用存储空间。表1列出了一些统计数字的明细表和Google存储的需求。由于压�~�技术的应用知识库只需53GB的存储空间。是所有要存储数据的三分之一。按当今��盘��h��Q�知识库相对于有用的数据来说比较便宜。搜索引擎需要的所有数据的存储�I�间大约55GB。大多数查询��h��只需要短反向索引。文件烦引应用先�q�的�~�码和压�~�技术，一个高质量的搜索引擎可以运行在7GB的新PC�?/p>

5.2�pȝ��执行搜烦引擎抓网��和建立索引的效率非帔R��要。Google的主要操作是抓网��，索引�Q�排序。很难测试抓全部�|�页需要多��时��_��因�ؓ��盘满了�Q�域名服务器崩溃�Q�或者其它问题导致系�l�停止。�ȝ��来说�Q�大�U�需�?天时间下�?6000000�|�页�Q�包括错误）。然而，一旦系�l�运行顺利，速度非常快，下蝲最�?1000000�|�页只需�?3��时�Q��^均每�?000000�|�页�Q�每�U?8.5个网��c��烦引器和网�l�爬行机器�h同步�q�行。烦引器比网�l�爬行机器�h快。因为我们花费了大量旉��优化索引器，使它不是瓉��。这些优化包括批量更新文档烦引，本地��盘数据�l�构的安排。烦引器每秒处理54个网��c��排序器完全�q�行�Q�用4台机器，排序的整个过�E�大概需�?4��时�?/p>

5.3搜烦执行改进搜烦执行不是我们研究的重炏V��当前版本的Google可以�?�?0�U�间回答查询��h��。时间大部分��p��在NFS��盘IO上（�׃��盘普遍比机器慢�Q�。进一步说�Q�Google没有做�Q何优化，例如查询�~�冲区，常用词汇子烦引，和其它常用的优化技术。我们們֐�于通过分布式，��g�Q��Y�Ӟ��和算法的改进来提高Google的速度。我们的目标是每�U�能处理几百个请求。表2有几个现在版本Google响应查询旉��的例子。它们说明IO�~�冲区对再次搜烦速度的媄响�?nbsp;6�l�论 Google设计成可伸羃的搜索引擎。主要目标是在快速发展的World Wide Web上提供高质量的搜索结果。Google应用了一些技术改�q�搜索质量包括PageRank�Q�链接描�q�文字，盔R��信息。进一步说�Q�Google是一个收集网��，建立索引�Q�执行搜索请求的完整的体�pȝ��构�?/p>

6.1未来的工作大型Web搜烦引擎是个复杂的系�l�，�q�有很多事情要做。我们直接的目标是提高搜索效率，覆盖大约100000000个网��c��一些简单的改进提高了效率包括请求缓冲区�Q��y妙地分配��盘�I�间�Q�子索引。另一个需要研�I�的领域是更新。我们必��L��一个��y妙的��法来决定哪些旧�|�页需要重新抓取，哪些新网��需要被抓取。这个目标已�l�由实现了。受需求驱动，用代理cache创徏搜烦数据库是一个有前途的研究领域。我们计划加一些简单的已经被商业搜索引擎支持的特征�Q�例如布��算术符��P��否定�Q�填充。然而另外一些应用刚刚开始探索，例如相关反馈�Q�聚�c�（Google现在支持��单的��Z��L��名的聚类�Q�。我们还计划支持用户上下文（象用户地址�Q�，�l�果摘要。我们正在扩大链接结构和链接文本的应用。简单的实验证明�Q�通过增加用户主页的权重或书签�Q�PageRank可以个性化。对于链接文本，我们正在试验用链接周围的文本加入到链接文本。Web搜烦引擎提供了丰富的研究��N��。如此之多以至于我们不能在此一一列�D�Q�因此在不久的将来，我们希望所做的工作不止本节提到的�?/p>

6.2高质量搜索当�?nbsp;Web搜烦引擎用户所面��的最大问题是搜烦�l�果的质量。结果常常是好笑的，�q�且��出用户的眼界，他们常常灰心丧气��费了宝�늚�旉��。例如，一个最��行的商业搜索引擎搜�?#8220;Bill Clillton”的结果是the Bill Clinton Joke of the Day: April 14, 1997。Google的设计目标是随着Web的快速发展提供高质量的搜索结果，�Ҏ��扑ֈ�信息。�ؓ此，Google大量应用��文本信息包括链接结构和链接文本。Google�q�用��C��盔R��性和字号信息。评��h��索引擎是困难的，我们主观地发现Google的搜索质量比当今商业搜烦引擎高。通过PageRank分析链接�l�构�?nbsp;Google能够评�h�|�页的质量。用链接文本描述链接所指向的网��|��助于搜烦引擎�q�回相关的结果（某种�E�度上提高了质量�Q�。最后，利用盔R��性信息大大提高了很多搜烦的相��x��?/p>

6.3可升�U�的体系�l�构除了搜烦质量�Q�Google设计成可升��的。空间和旉��必须高效�Q�处理整个Web时固定的几个因素非常重要。实现Google�pȝ��Q�CPU、访存、内存容量、磁盘寻道时间、磁盘吞吐量、磁盘容量、网�l�IO都是瓉��。在一些操作中�Q�已�l�改�q�的 Google克服了一些瓶颈。Google的主要数据结构能够有效利用存储空间。进一步，�|�页爬行�Q�烦引，排序已经��_��建立大部分web索引�Q�共 24000000个网��，用时不到一星期。我们希望能在一个月内徏�?00000000�|�页的烦引�?/p>

6.4研究工具 Google不仅是高质量的搜索引擎，它还是研�I�工兗��Google搜集的数据已�l�用在许多其它论文中�Q�提交给学术会议和许多其它方式。最�q�的研究�Q�例如，提出了Web查询的局限性，不需要网�l�就可以回答。这说明Google不仅是重要的研究工具�Q�而且必不可少�Q�应用广泛。我们希望Google是全世界研究者的资源�Q�带动搜索引擎技术的更新换代�?nbsp;7致谢 Scott Hassan and Alan Steremberg评�h了Google的改�q�。他们的才智无可替代�Q�作者由衷地感谢他们。感谢Hector Garcia-Molina, Rajeev Motwani, Jeff Ullman, and Terry Winograd和全部WebBase开发组的支持和富有深刻见解的讨论。最后感谢IBM�Q�Intel�Q�Sun和投资者的��h��支持�Q��ؓ我们提供讑֤�。这里所描述的研�I�是Stanford�l�合数字图书馆计划的一部分�Q�由国家�U�学自然基金支持�Q�合作协议号IRI-9411306。DARPA �Q�NASA�Q�Interva研究�Q�Stanford数字图书馆计划的工业合作伙伴也�ؓ�q�项合作协议提供了资金。参考文�?nbsp;?

Google的设计目标是可升�U�到10亿网��c��我们的��盘和机器大概能处理�q�么多网��c��系�l�各个部分耗费的��L��间是�q�行的和�U�性的。包括网��늈�行机器�h�Q�烦引器和排序器。扩展后我们认�ؓ大多数数据结构运行良好。然�?0亿网��|��q�所有常用操作系�l�的极限�Q�我们目前运行在Solaris和Linux上）。包括主存地址�Q�开放文件描�q�符的数量，�|�络socket和带宽，以及其它因素。我们认为当�|�页数量大大��过10亿网��|��Q�会大大增加�pȝ��复杂性�?nbsp;9.2集中式烦引体�pȝ��可升�U�性随着计算机性能的提高，��量文本索引的成本比较公�q�뀂当然带宽需求高的其它应用如视频�Q�越来越普遍。但是，与多媒体例如视频相比�Q�文本��品的成本低，因此文本仍然普遍�?

�? Google�pȝ��的工作流�E�图

(注：原图来自Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual. Web Search Engine, 1998.http://www-db.stanford.edu/%7Ebackrub/Google.html)

①Google使用高速的分布式爬行器(Crawler)�pȝ��中的漫游遍历�?Googlebot)定时地遍历网��，��遍历到的网��送到存储服务�?Store Server)中�?/p>

�?nbsp;存储服务器��用zlib格式压羃软�g��这些网��进行无损压�~�处理后存入数据库Repository中。Repository获得了每个网��늚�完全Html 代码后，对其压羃后的�|�页及URL�q�行分析�Q�记录下�|�页长度、URL、URL长度和网��内容，�q�赋予每个网��一个文档号(docID)�Q�以便当�pȝ��出现故障的时候，可以及时完整地进行网��늚�数据恢复�?/p>

③烦引器(Indexer)从Repository中读取数据，以后做以下四步工作：

�?a) ��读取的数据解压�~�后�q�行分析�Q�它��网��中每个有意义的词进行统计后�Q��{化�ؓ关键�?wordID)的若�q�烦引项(Hits)�Q�生成烦引项列表�Q�该列表包括关键词、关键词的位�|�、关键词的大��和大小写状态等。烦引项列表被存入到数据�?Barrels)中，�q�生成以文档�?docID)部分排序的顺排档索引�?/p>

索引��Ҏ��据其重要�E�度分�ؓ两种�Q�当索引��中的关键词出现在URL、标题、锚文本(Anchor Text)和标�{�中�Ӟ��表示该烦引项比较重要�Q�称为特�D�烦引项(Fancy Hits)�Q�其余情况则�U�Cؓ普通烦引项(Plain Hits)。在�pȝ��中每个Hit用两个字�?byte)存储�l�构表示�Q�特�D�烦引项�?�?bit)表示大小写，用二�q�制代码111(�?�?表示是特�D�烦引项�Q�其�?2位有4位表�C�特�D�烦引项的类�?即hit是出现在URL、标题、链接结点还是标�{�中)�Q�剩�?位表�C�hit在网��中的具体位�|�；普通烦引项是用1位表�C�大��写�Q?位表�C�字体大��，其余12位表�C�在�|�页中的具体位置�?/p>

��排档烦引和Hit的存储结构如�?所�C��?/p>

�? ��排档烦引和Hit的存储结�?/p>

值得注意的是�Q�当�Ҏ��索引��Ҏ��自Anchor Text�Ӟ��Ҏ��索引��用来表�C�Z��|�的信息�Q?位）��分��Z��部分�Q?位表�C�Anchor Text出现的具体位�|�，�?位则用来与表�C�Anchor Text所链接�|�页的docID相连接，�q�个docID是由URL Resolver�l�过转化存入��排档烦引的�?/p>

(b)索引器除了对�|�页中有意义的词�q�行分析外，�q�分析网��늚�所有超文本链接�Q�将其Anchor Text、URL指向�{�关键信息存入到Anchor文档库中�?/p>

(c)索引器生成一个烦引词�?Lexicon)�Q�它包括两个部分�Q�关键词的列表和指针列表�Q�用于倒排档文档相�q�接(如图3所�C?�?/p>

(d) 索引器还��分析过的网��늼�排成一个与Repository相连接的文档索引(Document Index)�Q��ƈ记录下网��늚�URL和标题，以便可以准确查找出在Repository中存储的原网��内宏V��而且把没有分析的�|�页传给URL Server�Q�以便在下一�ơ工作流�E�中�q�行索引分析�?/p>

⑤URL分析器（URL Resolver�Q�读取Anchor文档中的信息�Q�然后做⑥中的工作�?/p>

�?a) ��其锚文�?Anchor Text)所指向的URL转换成网��늚�docID�Q?b)��该docID与原�|�页的docID形成“链接�?#8221;�Q�存入Link数据库中�Q?c)��?nbsp;Anchor Text指向的网��늚�docID与顺排档�Ҏ��索引��Anchor Hits相连接�?/p>

⑦数据库Link记录了网��늚�链接关系�Q�用来计��网��늚�PageRank倹{�?/p>

⑧文档烦�?Document Index)把没有进行烦引分析的�|�页传递给URL Server�Q�URL Server则向Crawler提供待遍历的URL�Q�这��P��q�些未被索引的网��在下一�ơ工作流�E�中��被索引分析�?/p>

⑨排序器�Q�Sorter�Q�对数据�?Barrels)的顺排档索引重新�q�行排序�Q�生成以关键�?wordID)为烦引的倒排档烦引。倒排档烦引结构如�?所�C�：

�? 倒排档烦引结�?/p>

�?nbsp;��生成的倒排档烦引与先前��q��引器产生的烦引词�?Lexicon)相连接��生一个新的烦引词表供搜烦�?Searcher)使用。搜索器的功能是��q��|��务器实现的，�Ҏ��C�生的索引词表�l�合上述的文档烦�?Document Index)和Link数据库计��的�|�页PageRank值来匚w��索�?/p>

在执行检索时�Q�Google通常遵��@以下步骤�Q�以下所指的是单个检索词的情况）�Q?/p>

(1)��检索词转化成相应的wordID�Q?/p>

(2)利用Lexicon�Q�检索出包含该wordID的网��늚�docID�Q?/p>

(3)�Ҏ��与Lexicon相连的倒排档烦引，分析各网��中的相关烦引项的情况，计算各网��和��索词的匹配程度，必要时调用顺排档索引�Q?/p>

(4)�Ҏ��各网��늚�匚w��E�度�Q�结合根据Link产生的相应网��늚�PageRank情况�Q�对��索结果进行排序；

(5)调用Document Index中的docID及其相应的URL�Q�将排序�l�果生成��索结果的最�l�列表，提供�l�检索用戗��?/p>

用户��索包含多个检索词的情况与以上单个��索词的情�늱��|��先做单个��索词的检索，然后�Ҏ��索式中检索符��L��要求�q�行必要的布��操作或其他操作�?/p>

cc 2008-10-30 11:34 发表评论

who am i和whoami区别

cc — Sun, 19 Oct 2008 15:32:00 GMT

who am i 昄��的是实际用户ID即用��L��陆的时候的用户ID

whoami 昄��的是有效用户ID.

但在大多数情况下�Q�实际用户ID和有效用户ID是一致的�?/div>

�?/div>

Pssword:

$who am i

zhx pts/0 2007-08-16 13:16 (:0.0)

$whoami

zhx

当切换用户后�Q?/div>

Password:

#who am i

zhx pts/0 007-08-16 13:16 (:0.0)

#whoami

root

也可以说who am i 昄��的是切换用户前的实际登陆的用户ID,whoami是切换后的有效的用户ID�Q�此时此�l�端��h��切换后用��L��讉K��权限�Q�如本文中切换后则具有超�U�用��L��讉K��权限�?/div>

who am i �?/span>whoami有何区别�Q?/span>

首先要说�?/span>uid�?/span>euid�Q?/span>effective user id�Q�的区别�?/span>uid��是�?/span>login的时候��用的id�Q��?/span>euid则是你当前的有效id。因为登录后我们可以使用su切换用户�w�䆾�Q�所�?/span>uid�?/span>euid可能是不同的�Q�程序在�q�行的时候一般看的都�?/span>euid�Q�当然也有特出的�Q?/span>who am i��是一个�?/span>

举个例子�Q�用��L��ABC登陆�Q��?/span>su变成root�Q�用who am i看到的是ABC�Q��?/span>whoami命��o看到的是root�?/span>

Password:

$ su

Password:

# /usr/ucb/whoami

root

# who am i

u1 pts/4 10�?/span> 31 23:18 (192.168.0.1)

cc 2008-10-19 23:32 发表评论

cc — Wed, 24 Sep 2008 08:16:00 GMT

cc 2008-09-24 16:16 发表评论

cc — Sat, 20 Jan 2007 01:01:00 GMT

俗话�?工欲善其事，必先利其�?如果大家对开发程序稍微有点发烧的�?都知道快捷键对编�E�中有多大的作用�?当然当年Dos用natepad开发程序的除外�?,我就是这样一个发烧友�? 对各�U�IDE中的快捷功能颇感兴趣,��其是对快捷键这一部分乐此不彼�?再加上Eclipse又是本�h的最�?因此Eclipse中的快捷键就是本人重视的重点�?当然,Eclipse的快捷键暂时不是最强的,本�h见过快捷键最优秀的IDE�q�是当属IDEA�?里面的快捷键为程序员考虑的面面俱�?几乎��C��只要你想不到,没有按不到的地步�?�?好像�l�它做广告了).不过说实话很多功能都是Eclipse借鉴Idea�q�来的了.但至今我发现在快捷键�q�方面和别的��开发方面Eclipse�q�是�E�逊一�{�了(�q�仅仅是从Java IDE的角�?,废话��说,直接��切入正题了.

今天写的�q�些快捷键都是本人在实际�q�用中�ȝ��出来�?自己感觉很实�?都是以自��q��喜好�E�度来排列了,对于的Eclipse如果没有特别说明都��用有 Eclipse3.0.X以上�?个别如果出现不符合的话要么是版本的问�?要么是和别的�pȝ��U�的快捷键有冲突,譬如输入法的冲突�?�q�时��需要修改输入法�?下面的快捷键都是Eclipse�Ҏ��?��其是针对Java Editer�?但有些对Eclipse里面的Text也是实用的了,下面��是�q�些快捷键了(�?�q�些快捷键随着自己学习不断的深入和Eclipse版本不断的提高会慢慢的完善的,有些太普通的��没有列出来,如Ctrl+A一�c?:

Ctrl+1 快速修�?最�l�典的快捷键,��׃��用多说了)

Ctrl+D: 删除当前�?

Ctrl+Alt+�?复制当前行到下一�?复制增加)

Ctrl+Alt+�?复制当前行到上一�?复制增加)

Alt+�?当前行和下面一行交互位�|?特别实用,可以省去先剪�?再粘贴了)

Alt+�?当前行和上面一行交互位�|?同上)

Alt+�?前一个编辑的��面

Alt+�?下一个编辑的��面(当然是针对上面那条来说了)

Alt+Enter 昄��当前选择资源(工程,or 文�g or文�g)的属�?br />
Shift+Enter 在当前行的下一行插入空�?�q�时鼠标可以在当前行的�Q一位置,不一定是最�?

Shift+Ctrl+Enter 在当前行插入�I��(原理同上�?

Ctrl+Q 定位到最后编辑的地方

Ctrl+L 定位在某�?(对于�E�序��过100的�h��有��音�?

Ctrl+M 最大化当前的Edit或View (再按则反�?

Ctrl+/ 注释当前�?再按则取消注�?br />
Ctrl+O 快速显�C?OutLine

Ctrl+T 快速显�C�当前类的��承结�?br />
Ctrl+W 关闭当前Editer

Ctrl+K 参照选中的Word快速定位到下一�?br />
Ctrl+E 快速显�C�当前Editer的下拉列�?如果当前��面没有昄��的用黑体表示)

Ctrl+/(��键�? 折叠当前�c�M��的所有代�?br />
Ctrl+×(��键�? 展开当前�c�M��的所有代�?br />
Ctrl+Space 代码助手完成一些代码的插入(但一般和输入法有冲突,可以修改输入法的热键,也可以暂用Alt+/来代�?

Ctrl+Shift+E 昄��理当前打开的所有的View的管理器(可以选择关闭,�Ȁ�zȝ��操作)

Ctrl+J 正向增量查找(按下Ctrl+J�?你所输入的每个字母编辑器都提供快速匹配定位到某个单词,如果没有,则在stutes line中显�C�没有找��C��,查一个单词时,特别实用,�q�个功能Idea两年前就有了)

Ctrl+Shift+J 反向增量查找(和上条相�?只不�q�是从后往前查)

Ctrl+Shift+F4 关闭所有打开的Editer

Ctrl+Shift+X 把当前选中的文本全部变呛_��?br />
Ctrl+Shift+Y 把当前选中的文本全部变为小�?br />
Ctrl+Shift+F 格式化当前代�?br />
Ctrl+Shift+P 定位到对于的匚w��W?譬如{}) (从前面定位后面时,光标要在匚w��W�里�?后面到前�?则反�?

下面的快捷键是重构里面常用的,本�h��p��己喜�Ƣ且常用的整理一�?�?一般重构的快捷键都是Alt+Shift开头的�?

Alt+Shift+R 重命�?(是我自己最��q��的一个了,��其是变量和�cȝ��Rename,比手工方法能节省很多力_��?

Alt+Shift+M 抽取�Ҏ�� (�q�是重构里面最常用的方法之一�?��其是对一大堆泥团代码有用)

Alt+Shift+C 修改函数�l�构(比较实用,有N个函数调用了�q�个�Ҏ��,修改一�ơ搞�?

Alt+Shift+L 抽取本地变量( 可以直接把一些魔法数字和字符串抽取成一个变�?��其是多处调用的时�?

Alt+Shift+F 把Class中的local变量变�ؓfield变量 (比较实用的功�?

Alt+Shift+I 合�ƈ变量(可能�q�样说有点不妥Inline)

Alt+Shift+V �U�d��函数和变�?不怎么常用)

Alt+Shift+Z 重构的后悔药(Undo)BR>

cc 2007-01-20 09:01 发表评论

91亚洲精品视频,亚洲国产成人久久综合一区77,亚洲国产综合无码一区

oracle 可以用判断某�?存储的是否是 数字�?asc �?函数

tr

Linux操作�pȝ��下��Y件的安装�Ҏ��大全

rpm

who am i和whoami区别

oracle 可以用判断某�?存储的是否是数字�?asc �?函数