内容摘要�Q?br /> 目前中文�|�站在整个互联网中的影响�q�比较小�Q�这主要是由于中文网站��M��的水�q�I��技术上�Q�内容上�Q�都�q�相对落后造成的，最主要的表现有�Q?br />

行业知识�Q�不知道搜烦引擎对吸引的新用��L��重要性，在搜索引擎排名服务中�q�求“�ȝ��相关”�Q�购��C��些其实没有太多实际意义的行业关键词。其实能够用戯��入的关键词越多，其目标性越强，�q�样的客户�h��D��高。用戯��够直接定位到产品具体内容��|��到网站首��|��价值的多；
发布技术：�|�站的网��进入Google的烦引量非常��，主要是由于大量��用动态网��造成的。需要将动态页面链接改写成静态链�?/a>�Q?
��面设计�Q�页面标题重复，关键词不�H�出�Q�过渡��用JavaScript脚本/囄��/Flash�{�不适合搜烦引擎索引的非文本形式�Q?

而以上这些问题的�Ҏ��原因�q�是�|�站自��n�~�Z��日志�l�计分析造成�Q�因此无法看到SEO对网站自�w��生的巨大影响�?

SEO的目的是通过一些简单的�{�略�Q�让�|�站自��n的水�q�_��互联�|�中有一个真实的体现�?br /> �|�站�l�构设计中面向搜索引擎的优化注意事项包括�Q?/p>

链接引用的重要性；
如何�H�出关键词：�|�页标题、主题的设计�Q?/a>
��面及站点结构设计注意事��；
以及站点讉K��l�计的重要性等�Q?/a>
Google的站点设计指�?/a>

什么是PageRank

Google�{�新一带搜索引擎的优势之一在于不仅索引量很大，而且�q�将最好的�l�果排在搜烦�l�果的最前面�Q�具体的原理可以参�?a >Google の秘�?- PageRank 徹底解説一文，PageRank��单的说类��g��U�技论文中的引用机制�Q�谁的论文被引用�ơ数多，谁就是权威。在互联�|�上PageRank��是��Z��|�页中相互链接关�pȝ��分析得出的�?br />

此外�Q�从计算�Ҏ��角度阐述PageRank机制�q�有�q�篇文章�Q?a >http://pr.efactory.de/里面有更详细的PageRank��法说明和各�U�清晰的��型个案分析�Q?br />
比如�Q�子��中��D��条的重要�?br /> B <=> A => C
Vs
B <=> A <=> C   �Q�好�Q?br />
��面数量因素�Q?br /> B <=> A <=> C
Vs
F <=\   /=> G
B <=> A <=> C   �Q�好�Q?br /> D <=/   \=> E

一个意想不到的�l�论�Q?br /> (B <=> A <=> C)      ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的只是被链接�?个首��A和D�Q�而网站子��面的PageRank�q�_��会略有下降。同�Ӟ��一个网站进入Google的烦引量��大其受�c�M��因素影响��小�?br /> PageRank不对�U�的��面互链�Q?br /> Google会用BadRank之类的算法进行纠正，而且一个网��늝�有来�?#8220;与其自��n不相�U?#8221;的高PageRank站点的链接，而自�w�又�~�少��_��数量和质量的反相链接的话�Q�其PageRank会自动降低�ؓ0�Q�A(pr=7) <=> B(pr=0)
��单的说就是：偶尔要被权威站点反相链接不算敎ͼ�要被��_��多的权威站点引用才能提高自��n�|�页的PageRank�?br /> Web��链分析��法�l�D��Q�南京大学论文）更多论文可以通过搜烦�Q?#8220;filetype:pdf google pagerank anchor text bayesian”得到

链接��是一�?/a>

在互联网的�v�z�中�Q�最重要的就是互联互通，不被其他�|�站引用的网站就�?#8220;信息孤岛”�?#8220;酒好也怕藏的深”�Q�也许这话说��h��有点像垃��N��件广告，但事实就是这栗��所以如果做�|�站的目的不是孤芌��赏，��需要积极的推广自己的网站�?span style="font-weight: bold">
通过搜烦引擎推广自己需要注意以下几个方面：

以量取胜�Q�不一定加入传�l�门��L��站的分类目录才是�|�站推广�Q�来自其他网站的��M��反相链接都是有用�?br /> �|�站推广比较�l�典的方式就是加入比较大型门��L��站的分类目录�Q�比如：Yahoo!�Q?a >dmoz.org�{�。其实这里有一个误区：不一定非要加入大型网站的分类目录才是�|�站推广�Q�因为现在搜索引擎已�l�不再只是网站目录的索引�Q�而是更全面的�|�页索引�Q�所以无论来自其他网站�Q何地方的反相链接都是非常有�h值的�Q�哪怕是出现在新��L��道，论坛�Q�邮件列表归��中。Blogger�Q�Weblog的简�U�ͼ�们也许最深刻地理解了“链接��是一�?#8221;�q�句话的含义�Q�由于Blog的内容之间有大量的相互链接（他们之间利用RSS很容易进行链接大量传播）�Q�因此最�l�常被引用的Blog��面在搜索引擎中的排名往往比一些大型商业网站的��面�q�要高。而WIKI�q�样的文��管理系�l�更加突��Z��良好�l�构�Q�良好引用的特征。而目前很多网站通过在各�U�WIKI/留言��中灌注垃圾留言的方法，�q�种方式是非�怸�可取的。这�U�链接不�E�_��Q?
以质取胜�Q�被PageRank高的�|�站引用能更快地提高PageRank
数量只是关键因素之一�Q�来自PageRank高的��面的链接还能更快的提高被链接目标的PageRank�Q�我只是��一些文章投�E�在�?a class=" snap_noshots" >ZDNet中国上，�׃��面上有文章出处链接�Q�相应网��和�|�站整体的PageRank�q�了一�D�|��间后��有了很大的提升。有时候被什么样的网站引用有时候比引用�ơ数多更重要。这里我要特别感谢的是，当时ZDNet中国是唯一遵��@了我的版权声明的要求表明了文章出处，�q�且有反盔R��接的�|�站�?br /> 按照�q�个原则�Q�能够名列Yahoo!和DMOZ�q�样的大型权威目录的�?层是非常有�h值的�?
了解搜烦引擎�?价��D��"�Q?br /> Lucene��?/a>�q�篇文章被Jakarta.apache.org�?a >lucene��目引用以后�Q�这��文章就成�ؓ了所有页面中PageRank最高的��面�Q�而Google支持的一些项目，比如�Q?a >Folding@Home�Q�让我一直怀疑他们对政府�Q�教育和非盈利组�l�的站点有特别加分，毕竟.org .edu才代表了互联�|�的实质�Q�分权和�׃�n�?br /> 但更合理的解释是�Q?org很多都是开放技术��^台的开发者，他们会在首页�q�样的地方加入Powered By Apache, Power by FreeBSD之类的链接表�C�对其他开源��^台的��重�Q�所以象Apache, PHP, FreeBSD�q�样的开源站点在GOOGLE中都有非帔R��的PageRank。而在.edu�q�些站点中，很多都是学术性比较强的文��，以超链接形式标明参考文献的出处已经成�ؓ一�U�习惯，而这也无疑正是PageRank最好的依据�?br /> 注意�Q�不要通过Link Farm提高自��n的站�Ҏ��名：Google会惩�|�那些主动链接到Link Farm站点以提高自�w�排名站点，相应站点的页面将不会被收入到索引中。但如果你的��面被别的Link Farm链接了也不必担心�Q�因��U�被动的链接是不会被惩罚的�?/span>
不要吝啬�l�其他网站的链接�Q�如果一个网��只有大量的�q�入链接�Q�而缺乏导出链接，也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜索引擎更准确地判断哪些是对用��h��有�h值的信息�Q�也��是说如果你的网站只有外部反向链接而没有导出链接的话，也会对你的网站在搜烦�l�果中的表现带来负面影响。当然网站中�q�一个导出链接都没有的情况非常罕见，除非你是��L��q�么做。正常情况下大家都会自然地在�|�页中加上一些其他网站的链接�Q�带领访问者去到我们认为重要或能够提供更多有�h��g��息的地方�Q?

另外在推�q�自��q��站之前也讔R��先需要了解自��q��站目前在一些搜索引擎中的知名度�Q�原理非常简单，可以参�?a >如何评�h�|�站的�h�?/a>一文�?/p>

�|�站推广只是手段�Q�如何突出内宏V��让需要相关信息的用户能够��快的找��C��的网站才是目的，PageRank高�ƈ不代表像Yahoo!�q�样的门��L��点就能在所有搜索结果中排名靠前�Q�因为搜索引擎的�l�果是搜索关键词在页面中的匹配度和页面的PageRank相结合的排名�l�果。因此第二个要点�Q�如何突出关键词�?br />

如何�H�出关键词：面向主题(Theme)的关键词匚w��

Theme Engine正在逐步��过PR�Q�成为结果排序中更主要的因素�Q�可以比较一下以下现象：
- ��Z��么查“新闻”�Q?#8220;汽�R”之类的文字，各种门户�|�站的首��不在第一位？要知道他们的��面中都有相应频道的链接文字�?
- 一��新闻页面中�Q�搜索引擎如何不通过模板匚w��Q�自动将新闻的主体和��面中的��头�Q�栏目导航条�Q�页��部分的内容区分开的？
其实以上问题都可以归�l��ؓ�|�页内容摘要的提取策略和关键词在其中的命中：
首先��能够描�q�C��个页面内容的分成以下几种�c�d��Q?br />
1. 铑օ�文字描述�Q�inbound link text
  http://www.searchenginedictionary.com/terms-inbound-link.shtml
2. HTML��面标题�Q�title 好标题一般会��页面中最重要的关键词攑֜�最前面�Q�比如：ABC-10型吸��器 - XX家电�?
3. HTML内容��M��Q�content text
4. 铑և�文字�Q�outbound link text
如果按照以下规则�Q?br /> 一个页面中关键词命中权重：铑օ�文字 > HTML标题文字 > HTML��面��M��内容 >> 出链文字�Q�以上现象就比较好解释了�?br /> 铑օ�文字是页面上看不见的�Q�但铑օ�文字对被链接��面有巨大的作用�Q�在��C��搜烦引擎在关键词匚w��的过�E�中�Q�匹配的�q�程不只看当前页面的内容摘要�Q�很大程度上�Q�不只看�q�个�|�页自己说自己有什么内容，�q�要看别人如何链接时�Q�如何描�q�C��的网站别人怎么�U�呼你，比你自己说自己更重要。�?br /> 比如查：“世界卫生�l�织”�Q�返回结果中�?http://www.who.int/ 而这个页面中是没有中文的�Q�之所以能匚w��上，是因为很多链接它的中文网站��用了�Q?lt;a >世界卫生�l�织�Q�所以，�q�个��面中不存在的中文关键词也成��Z��面摘要的一部分。这样一惻I��可以知道链出链接的文字其实是�ؓ被链接的子频道首��|��者内容详情页服务的。对自��n��面的关键词密度只有负面的媄响，�q�也是Google��一个页面中链接不要��过100个的原因�Q�他�Ҏ��不烦�?00个链接以后的内容。按照以上规则，搜烦引擎��一��新闻详情页中的新闻内容提取出来��是把页面上所有带HTTP链接的文字都��L��Q�就是新�ȝ��内容部分了，更精��一些可以通过取最长文本段落等�{�略实现�Q�而很多网站首��|��频道首页中几乎全部都是链接，�l�过搜烦引擎分析的结果就是：什么内容也没有�Q�能够被命中的关键词仅仅是别人链接你用的“�|�站首页”和频道标题Title中的站点名称�{�的几个关键词，而页面中其他的文字则�q�远不如相应子频道和具体内容��面的匹配度高，而搜索引擎能够通过以上规则�Q�让用户更快的直接定位到有具体内容的内容详情��面。因此希望通过一个首��，��可能多的命中所有希望推�q�的关键词是不可能的�?a >让网��尽可能多的�q�入搜烦引擎的烦�?/a>�Q�然后把握好整个�|�站的主题风格是非常重要的，让网站的主题关键词能够比较均匀的按照金字塔模式分布到网站中可以参考：�|�站的主题金字塔设计 �|�站名称�Q�用户通过1�Q?个抽象关键词�Q?br /> / \
子频�? 子频�? �Q�用户通过2�Q?个关键词命中�Q?br /> / \ / \
产品1 产品2 文章1 文章2 (用户通过3�Q?个关键词命中�Q�这�U�用��h��有�h�?
不要�I�着标题�Q�空着无异于浪费了最有�h值的一块阵圎ͼ�
不要使用meta keywords/description
传统的页面中�Q�HTML��面中会有类��g��下的隐含信息�Q�用于说明当前网��늚�主要内容关键字：

后来�׃��q�种人工��d��关键词的方式被滥用，大量�|�页中�ؓ了提高被搜烦引擎命中的概率，�l�常��d��一些和实际�|�页内容无关的热门关键比如：“music mp3 download”�{�，所以新一代的搜烦引擎已经不再兛_��面头文件中的�h工meta keyword声明�Q�而页面标题在搜烦引擎的关键词的命中命中过�E�中往往有着更高的比重，如果一个关键词在标题中命中会比在页面中命中有更高的得分�Q�从而在相应的搜索结果排名中更靠前�?
标题长度和内容：不要�q�长�Q�一般在40个字(80个字�?以内�Q��ƈ充分�H�出关键词的比重�Q?br /> 如果更长的标题搜索引擎一般会忽略掉，所以要��可能将主要关键词放在标题靠前的位置。省略掉不必要的形容词吧�Q�毕竟用户主要通过名词来找到需要的内容。标题内容：��量用一些别人可以通过关键词找到的字眼�Q�也别太�q�头�Q�如果标题中的字��D��q?半内容中都没有，有可能被搜烦引擎排除出烦引）�Q�因此基于web日志中来自其他搜索引擎的关键词查询统计非常必要�?
如果�|�页很多的话�Q�尽量��用不同的�|�页标题�Q�争取让自己�|�站的内�Ҏ��多的�q�入搜烦引擎索引范围�Q?br /> 因�ؓ搜烦引擎会根据页面内容的�怼�度把一些内容当成重复页面排除出索引范围�Q?br /> http://www.chedong.com/phpMan.php是我的网站上的一个小应用�Q�一个web界面的unix命��o手册�Q�man page�Q�，在以前的设计中所有动态页面��用的都是同样的标题："phpMan: man page /perldoc /info page web interface" �Q�Google索引了大�U?000多个��面�Q�后来我��页面标题改成了"phpMan: [命��o名]"�q�样的格式，比如�Q?phpMan: ls"�Q�这样大部分动态页面的标题��都不一样了�Q�一个月后Google从这个页面入口烦引了大约6000个页面。因此，如果�|�站中很多网��都使用相同的标题，比如�Q?#8220;新闻频道”�Q?#8220;论坛”�Q�这些页面中很大一部分��׃��被排重机制忽略掉�?
除了外，�q�可以用
标题行突出内容主题，加强标题的效果；
在我的网站设计中�Q�我会把�?lt;h1>[标题]�q�样的模板把标题�H�出昄��Q�而不是通过改变字体的方式突出标题�?

其他�|�站设计提示

静态链接：Blog�|�站另外一个优势在于其�|�页是静态链接：动态网��占到整个互联网内容�?0�Q�以上�?span style="font-weight: bold">各个搜烦引擎其实能够表现的都只不�q�是互联�|�的冰山一�?3-5%)�Q�不同的只是谁让优质�|�页排名靠前的策略更优秀而已�Q?/span>大部分搜索引擎都认�ؓ静态链接的�|�页是优质网��，Google在优先抓取烦引的�|�页�?0%以上是不带参数链接的静态网��c��而且即��同样的内容，静态网��也会比动态网��|��重高�Q�很�Ҏ��理解�Q�query?a=1&b=2�q�样的链接由于参数顺序颠倒的query?b=2&a=1完全相同。尽量��用静态网��：目前能够动态网��进行全面的索引�q�比较难�Q�而即使是Google也更不会索引所有的内容�Q�因此很��会对参数超�q?个的动态网��进行进一步的抓取和分析。以下是一个phpBB论坛��面�q�回的HTTP头信息：
```
HTTP/1.1 200 OK
    Date: Wed, 28 Jan 2004 12:58:54 GMT
    Server: Apache/1.3.29 (Unix) mod_gzip/1.3.26.1a PHP/4.3.4
    X-Powered-By: PHP/4.3.4
    Set-Cookie: phpBB_data=a%3A0%3A%7B%7D; expires=Thu, 27-Jan-2005 12:58:54 GMT; path=/;
    Set-Cookie: phpBB_sid=09f67a83ee108ecbf11e35bb6f36fcec; path=/;
    Content-Encoding: gzip
    Cache-Control: private, pre-check=0, post-check=0, max-age=0
    Expires: 0
    Pragma: no-cache
    Connection: close
    Content-Type: text/html
    
```
��Z��避免隐私问题�Q�Googlebot可以通过寚w��面http header中的session id和session cookie�q�行一些甄别，�q�样很多需要认证信息的论坛内容��无法进入烦引了�?br /> ��M��上说Google喜欢新的�Q�静态的内容。因此无��Z��效率上讲�q�是方便搜烦引擎收录�Q��用内容发布系�l�将�|�站内容发布成静态网��都是非常必要的�Q�从某种�E�度上说google friendly = anonymous cache friendly�?br /> 比如�Q�http://www.chedong.com/phpMan.php/man/intro/3
比http://www.chedong.com/phpMan.php?mode=man¶meter=intro§ion=3�q�样的链接更�Ҏ��q�入搜烦引擎的烦引。而且在URL中的命中也能�H�出关键词�?

能够�q�入Google索引的页面数量越多越好。用�c�M��以下的脚本可以统计自��q��|�站被搜索引擎烦引的情况�?

#!/bin/sh
    YESTERDAY=`date -d yesterday +%Y%m%d`
    # for FreeBSD: YESTERDAY=`date -v-1d +%Y%m%d`
    LOG_FILE='/home/apache/logs/access_log'
    grep -i Googlebot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.googlebot.txt
    grep -i baiduspider $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.baiduspider.txt
    grep -i msnbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.msnbot.txt
    grep -i inktomi $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort | uniq -c | sort -rn > spider/$YESTERDAY.inktomi.txt
    grep -i openbot $LOG_FILE.$YESTERDAY|awk '{print $7}' |sort |uniq -c | sort -rn > spider/$YESTERDAY.openbot.txt

�|�站目录�l�构要扁�q�I��因�ؓ每深一�U�目录，PAGERANK降低1�Q?个档�ơ。假��N��|��3�Q�其子可能目录就�?了，更深可能��无法列入评�U�范围了�?br />
表现和内容的分离�Q?#8220;�l�色”�|�页
�|�页中的javascript和css��可能和�|�页分离�Q�一斚w��提高代码重用度（也方侉K��面缓存）�Q�另外一斚w��Q�由于有效内容占�|�页长度的百分比高，也能提高相关关键词在��面中的比重也增加了。��M��Q�应该鼓励遵循w3c的规范，使用更规范的XHTML和XML作�ؓ昄��格式便于内容更长旉��的保存�?
让所有的��面都有能够快速入口：站点地图�Q�方便网��늈�虫（spider�Q�快速遍历网站所有需要发布的内容。如果首��就是用Flash或图片进入的话，无异于将搜烦引擎拒之门外�Q�除了UI设计的用户友好外�Q�spider friendly也是非常重要的�?
保持�|�站自��n的健��P��l�常利用坏链��查工�?/a>��查网站中是否有死链�?
保持�|�页内容/链接的稳定性和持久性：在搜索引擎烦引中�|�页存在的历史也是一个比较重要的因素�Q�而且历史比较久的�|�页被链接的几率��高。�ؓ了保证自��q��能够被比较持久的被其他�|�站的页面引用，如果自己�|�页中有链接更新�Ӟ��最好能保留旧的��面�q�做好链接�{向，以保持内容的�q�箋性。要知道�Q�把一个网站和内容在搜索引擎中的排�?#8220;培养”的很高是一仉��怸��Ҏ��的事情，谁都不希望好不容易自��q��内容被别人找��C��Q�点��d��?#8220;404 ��面不存�?#8221;吧，因此站点��理员对自��n站点error.log的分析也是非常必要的�?
文�g�c�d��因素�Q�Google有对PDF, Word(Power Point, Excel), PS文��的烦引能力，�׃��q�种文��的内�Ҏ��一般的HTML�l�过了更多的整理�Q�学术�h��g��般比较高�Q�所以这些类型的文档天生��比一般的HTML�c�d��的文�?PageRank要高。因此，对于比较重要的文档：技术白皮书�Q�FAQ�Q�安装文��等��使用PDF PS�{�高�U�格式存取，�q�样在搜索结果中也能获得比较靠前的位�|��?
常常能发现门��L��点的一条新��d��往比其他站点的首页排名�q�要靠前。因此一个站�Ҏ��M��PageRank提高了以后，往往自��n一些�ƈ不重要的内容也会被同那些高PageRank的内容一起带入被搜烦引擎优先查询的列表中。这��L��帔R��成很多大的开发站点的邮�g列表归档往往比其他站点的首页PageRank�q�要高�?

知己知彼——站点访问统�?日志分析挖掘的重要�?/a>

�|�站设计不仅仅只是被动的�q�合搜烦引擎的烦引，更重要是充分利用搜烦引擎带来的流量进行更深层�ơ的用户行�ؓ分析。目前，来自搜烦引擎关键词统计几乎是各种WEB日志分析工具的标准功能，�怿�商业日志�l�计工具在这斚w��应该会有更强化的实现。WEB日志�l�计�q�个功能如此重要�Q�以至于新的RedHat 8中已�l�将日志分析工具webalizer作�ؓ标准的服务器配置应用之一�?br />

以Apache/webalizer��Z��Q�具体的做法如下�Q?

记录讉K��来源�Q?br /> 在Apache配置文�g中设�|�日志格式�ؓcombined格式�Q�这��L��日志中会包含扩展信息�Q�其中有一个字�D�就是相应访问的转向来源�Q?HTTP_REFERER�Q�如果用��h��从某个搜索引擎的搜烦�l�果中找��C��你的�|�页�q�点击过来，日志中记录的HTTP_REFERER��是用户在搜索引擎结果页面的URL�Q�这个URL中包含了用户查询的关键词�?br />
在webalizer中缺省配�|�针�Ҏ��索引擎的�l�计�Q�如何提取HTTP_REFERER中的关键�?br /> webalizer中缺省有针对yahoo, google�{�国际流行搜索引擎的查询格式�Q�这里我增加了针对国内门��L��点的搜烦引擎参数讄��
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine    sina.com.cn word=
SearchEngine    baidu.com   word=
SearchEngine    sohu.com    word=
SearchEngine    163.com q=

通过�q�样讄��webalizer�l�计时就会将HTTP_REFERER中来自搜索引擎的URL中的keyword提取出来�Q�比如：所有来�?google.com链接中，参数q的值都��被作�ؓ关键词统计下来：�Q�从汇�ȝ��计结果中�Q�就可以发现用户是根据什么关键词扑ֈ�你的�ơ数�Q�以及找��C��的用��h��感兴��的是那些关键词�{�，�q�一步的�Q�在webalizer中有讄��q�可以将�l�计�l�果倒出成CSV格式的日志，便于以后导入数据库进行历史统计，做更深层�ơ的数据挖掘�{��?/p>

以前通过WEB日志的用户分析主要是��单的��Z��日志中的讉K��旉��/IP地址来源�{�，很明显，��Z��搜烦引擎关键词的�l�计能得到的分析�l�果更丰富、更直观。因此，搜烦引擎服务的潜在商业�h值几乎是不言而喻的，也许�q�也�?a >Yahoo! Altavista�{�传�l�搜索引擎网站在门户模式后重新开始重视搜索引擎市场的原因�Q�看�?a >Google的年度关键词�l�计��q��道了�Q�在互联�|�上有谁比搜索引擎更了解用户对什么更感兴��呢�Q?br />

��L��本站的反盔R��接统计：http://www.chedong.com/log/2003_6.log
需要注意的是：�׃��Google针对Windows 2000中的IE使用的是UTF-8方式的编码，因此很多�l�计有时候需要在UTF-8方式下查看才是正��字�W�显�C�。从�l�计中能够感受到�Q�在使用水��^比较高的IT开发�h员中Google已经成�ؓ最常用的搜索引擎。而��用百度的用户也已�l�大大超�q�了传统的搜狐，新浪�{�门��L��点，因此传统门户�|�站在搜索引擎上的优势将是非常脆��q��。而从技术的发展��势来看�Q�以后还会有更多的利用互联网媒体做更深层�ơ数据挖掘的服务模式出现�Q?br />

转蝲自cnblog.org—�?#8220;�H�发”文字可能揭示�C�会��势

�?#8220;新科学家”(New Scientist)在线杂志上，公布了康奈尔大学的一个新研究成果�Q�引人注目，也许与Google 收购Pyra 的动机有兟�?/span>

�q�所大学的计��机�U�学�?Jon Klenberg 开发了一个计��机��法�Q�能够识别一��文章中某些文字�?#8220;�H�发”增长�Q�而且他发玎ͼ��q�些“�H�发”增长的文字可以用来快速识别最新的��势和热炚w��题，因此能够更有效地�{�选重要信息。过��d��多搜索技术都采用了简单计��文�?词组出现频率的方法，却忽略了文字使用增加的速率�?/span>

Jon 特别指出�Q�这�U�方法可以应用到大量Weblog上，以跟�t�社会趋势，�q�对商业应用也很有潜力。例如，�q�告商可以从成千上万的个人Blog 中快速找到潜在的需求风��。而且只要Blog 覆盖话题范围��_��大（实际上发展趋势确实如此）�Q�这��Ҏ��术对政治、社会、文化和�l�济�{�领域也都会有实际意义了�?/span>

虽然Google 新闻的内部算法至今没有公开�Q�但是�h们猜��这�U�完全由机器所搜集的头条新��d��当不是Google搜烦引擎中惯用的鸽子��法�Q�很可能与这�U?#8220;�H�发”判断��法有关。如此说来，Google收购Blog工具供应商的丑֊��实�q�有更深层次的远见了�?/span>

- NewScientist.com news,
- �q�没有写完这些介�l�，�?SlashDot 上也看到了很多有兌��个发现的讨论

附：Google官方的站点设计指�?/a>

Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link. 让网站有着清晰的结构和文本链接�Q�所有的��面臛_��要有一个静态文本链接入�?br /> �Ҏ��Q�尽量不要用囄��和JAVASCRIPT
Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages.
为用��h��供一个站点地图：转向�|�站的重要部分。如果站点地��N��面超�q?00个链接，则需要将��面分成多个��面�?br /> �Ҏ��Q�烦引页不要��过100个链接：SPIDER只考虑��面中头100个链�?
Create a useful, information-rich site and write pages that clearly and accurately describe your content.
用一些有用的�Q�信息量丰富的站点，清晰�q�正��的描述你的信息�?
Think about the words users would type to find your pages, and make sure that your site actually includes those words within it.
惛_��用户可能用来扑ֈ�你的关键词，�q�保证这些关键词在网站中出现�?br /> �Ҏ��Q�少�?#8220;最�?#8221;�Q?#8220;最�?#8221;之类的�Ş容词�Q�用用户最兛_��的词�Q�比如：下蝲�Q�歌星名字，而不是一些抽象名词�?
Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images.
��可能��用文本，而不是图片显�C�重要的名称�Q�内容和链接。GOOGLE的机器�h不认识图片中的文字�?
Make sure that your TITLE and ALT tags are descriptive and accurate.
保证�Q�页面的TITLE和ALT标记正确的精��描�q?
Check for broken links and correct HTML.
��查坏铑�ƈ修正�q�些HTML错误�?
If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small.
如果你打��用动态页面：链接中包�??"�Q�必��M��解：�q��所有的搜烦引擎的机器�h能想对待静态页面一样对待动态页面，保持动态页面的参数��可能的��也会很有帮助�?
Keep the links on a given page to a reasonable number (fewer than 100).
让一个页面中的链接少�?00个�?br /> �Ҏ��Q�用lynx -dump http://www.chedong.com 可以模拟从robot角度看到的页面。其最后有链接�l�计

输出�c�M��Q?br />
   [1]Google Free Search _______________________________ Google Search
   (_) Search WWW (_) Search chedong.com

   �?�?[2]站点地图 / Site Map [3]�?�a��?/ Guest Book [4]意见反馈 /
   Feed Back
    ...
References

   Visible links
   1. http://www.google.com/services/free.html
   2. http://www.chedong.com/sitemap.html#sitemap
   3. http://www.chedong.com/guestbook/
   4. http://www.chedong.com/formmail.htm
    ...
   Hidden links:
50. http://www.chedong.com/bbcweb/
    ...

搜烦引擎的宗旨在于提取互联网中质量最好的内容提供�l�用��P��M��有利于帮助用戯��得相对公正，优质内容的策略都是搜索引擎追求目标。PageRank是一个非常好的策略，但是�q��所有策略都是基于非常复杂的��法�?br /> 从搜索引擎看来什么是互联�|�中“�?#8221;的内容呢�Q?

首先�Q�互联网大约�?G个网��，而且以每�?M的速度增长的。其�?0%以上是动态网��，而占总量20%的静态网��就是一个相�Ҏ��较简单的�q��o规则�?

其次�Q�用户友好（User friendly�Q�也是很重要的方面，搜烦引擎利用��法帮助提升�q�些优质�|�站�Q�包括：通过CSS��内容和表现分离�Q�较��的javascript和frame�l�构�Q�spider本��n也很难深入抓取这些网��：Javascript和frame�l�构大部分是�q�告�?

标题明确�Q�无标题�Q�重复标题或者标题SPAM�Q�类��g��Q�游戏游戏游戏游戏游戏游戏这��L��标题�Q�进行过滤或降低得分��面大小�Q�因为页面过大会��D��用户下蝲�~�慢�Q�所以很多引擎只计算��面大小�?00k以内的网��c�?

链接引用�Q�不仅需要有链接铑օ��Q�也需要帮助用��h��到其他更有�h值的内容�Q?

文�g�c�d��Q�PDF和DOC�{�专业文档和来自edu,gov�{�非赢利�|�站的内容；

铑օ��|�站的文字：所有用户不可见的因素全部被忽略。此外：用户搜烦的行为本�w�也被Google记录�Q�可能对目标�|�站的主题相兛_��有帮助�?

参考资料：

面向Google搜烦引擎的网站设计优�?br /> http://www.google-search-engine-optimization.com/

如何评�h一个网站的人气
 http://www.chedong.com/tech/link_pop_check.html

如何提高�|�站在Google中的排名——面向搜索引擎的�q�告模式
http://www.chedong.com/tech/google_ads.html

如何提高�|�站在Google中的排名——面向搜索引擎的�|�站链接设计
http://www.chedong.com/tech/google_url.html

Google不断改进相应的算法：HillTop
Hilltop: A Search Engine based on Expert Documents

Google の秘�?- PageRank 徹底解説
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html
�q�篇文章是在�?Google PageRank"的时候查到的�Q�这��文章不仅有一个算法说明，也是一个Google的weblog�Q�记录了很多关于Google的新��d��一些市场动态信息�?br /> Google 的秘�? PageRank ��d��解说中文�?/a>

更详�l�的PageRank��法说明�Q?br /> http://pr.efactory.de/

WEB日志�l�计工具AWStats的��用：增加了Unicode的解码和中国主要门户搜烦的定�?/a>
http://www.chedong.com/tech/awstats.html

Robots的说明：
http://bar.baidu.com/robots/
http://www.google.com/bot.html
搜烦引擎通过一�U�程序robot�Q�又�U�spider�Q�，自动讉K��互联�|�上的网��ƈ获取�|�页信息。您可以在您的网站中创徏一个纯文本文�g robots.txt�Q�在�q�个文�g中声明该�|�站中哪些内容可以被robot讉K��Q�哪些不可以�?/p>

反Google站点�Q�观点也很有��?br /> http://www.google-watch.org/

关于Google的WebLog
http://google.blogspace.com/

关于Google的HillTop��法

亚洲精品成人图区,亚洲三区在线观看无套内射,自拍偷自拍亚洲精品第1页

提高�|�站在Google中的排名 ——面向搜索引擎的�|�站设计

Google排名优化�Q�面向搜索引擎的�|�站设计

什么是PageRank

链接��是一�?/a>

如何�H�出关键词：面向主题(Theme)的关键词匚w��

其他�|�站设计提示

知己知彼——站点访问统�?日志分析挖掘的重要�?/a>

附：Google官方的站点设计指�?/a>

亚洲精品成人图区,亚洲三区在线观看无套内射,自拍偷自拍亚洲精品第1页

提高�|�站在Google中的排名 ——面向搜索引擎的�|�站设计

Google排名优化�Q�面向搜索引擎的�|�站设计

什么是PageRank

链接���是一�?/a>

如何�H�出关键词：面向主题(Theme)的关键词匚w��

其他�|�站设计提示

知己知彼——站点访问统�?日志分析挖掘的重要�?/a>

附：Google官方的站点设计指�?/a>

链接��是一�?/a>