另外看Michael更新了他的那经典的文章Qؓ了让更多的h能够看到Q决定{载过来?br />
我在CERNET做过拨号接入q_的搭建,而后在Yahoo&3721从事q搜索引擎前端开发,又在MOP处理q大型社区猫扑大杂烩的架构升U等工作Q同时自己接触和开发过不少大中型网站的模块Q因此在大型|站应对高负载和q发的解x案上有一些积累和l验Q可以和大家一h讨一下?br />

  一个小型的|站Q比如个人网站,可以使用最单的html静态页面就实现了,配合一些图片达到美化效果,所有的面均存攑֜一个目录下Q这L|站对系l架构、性能的要求都很简单,随着互联|业务的不断丰富Q网站相关的技术经q这些年的发展,已经l分到很l的Ҏ面面Q尤其对于大型网站来_所采用的技术更是涉及面非常q,从硬件到软g、编E语a、数据库、WebServer、防火墙{各个领域都有了很高的要求,已经不是原来单的html静态网站所能比拟的?br />
  大型|站Q比如门L站。在面对大量用户讉K、高q发h斚wQ基本的解决Ҏ集中在这样几个环节:使用高性能的服务器、高性能的数据库、高效率的编E语a、还有高性能的Web容器。但是除了这几个斚wQ还没法Ҏ解决大型|站面的高负蝲和高q发问题?br />
  上面提供的几个解x\在一定程度上也意味着更大的投入,q且q样的解x\具备瓉Q没有很好的扩展性,下面我从低成本、高性能和高扩张性的角度来说说我的一些经验?br />
1、HTML静态化
  其实大家都知道,效率最高、消耗最的是U静态化的html面Q所以我们尽可能使我们的|站上的面采用静态页面来实现Q这个最单的Ҏ其实也是最有效的方法。但是对于大量内容ƈ且频J更新的|站Q我们无法全部手动去挨个实现Q于是出C我们常见的信息发布系lCMSQ像我们常访问的各个门户站点的新闻频道,甚至他们的其他频道,都是通过信息发布pȝ来管理和实现的,信息发布pȝ可以实现最单的信息录入自动生成静态页面,q能具备频道理、权限管理、自动抓取等功能Q对于一个大型网站来_拥有一套高效、可理的CMS是必不可的?br />
  除了门户和信息发布类型的|站Q对于交互性要求很高的C֌cd|站来说Q尽可能的静态化也是提高性能的必要手D,社区内的帖子、文章进行实时的静态化Q有更新的时候再重新静态化也是大量使用的策略,像Mop的大杂烩是使用了这L{略Q网易社区等也是如此。目前很多博客也都实C静态化Q我使用的这个BlogE序WordPressq没有静态化Q所以如果面寚w负蝲讉KQ?a >www.bt285.cn一定不能承?nbsp; 

  同时Qhtml静态化也是某些~存{略使用的手D,对于pȝ中频J用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实玎ͼ比如论坛中论坛的公用讄信息Q这些信息目前的L论坛都可以进行后台管理ƈ且存储再数据库中Q这些信息其实大量被前台E序调用Q但是更新频率很,可以考虑这部分内容q行后台更新的时候进行静态化Q这样避免了大量的数据库讉Kh?br />
  在进行html静态化的时候可以用一U折中的ҎQ就是前端用动态实玎ͼ在一定的{略下进行定旉态化和定时判断调用,q个能实现很多灵zL的操作Q我开发的说|站故h?www.5a520.cn)是使用了这LҎQ我通过讑֮一些html静态化的时间间隔来对动态网站内容进行缓存,辑ֈ分担大部分的压力到静态页面上Q可以应用于中小型网站的架构上。小说网站的地址Qhttp://www.5a520.cnQ顺便提一下,有喜Ƣ小说的朋友多多支持我这个免费网?)

2、图片服务器分离
  大家知道Q对于Web服务器来_不管是Apache、IISq是其他容器Q图片是最消耗资源的Q于是我们有必要图片与面q行分离Q这是基本上大型|站都会采用的策略,他们都有独立的图片服务器Q甚臛_多台囄服务器。这L架构可以降低提供面讉Kh的服务器pȝ压力Qƈ且可以保证系l不会因为图片问题而崩溃?br />
  在应用服务器和图片服务器上,可以q行不同的配|优化,比如Apache在配|ContentType的时候可以尽量少支持Q尽可能的LoadModuleQ保证更高的pȝ消耗和执行效率?br />
  我的台球|站故h?zone.cn也用了囄服务器架构上的分,目前是仅仅是架构上分,物理上没有分,׃没有׃更多的服务器:)Q大家可以看到故人居上的囄q接都是cMimg.9tmd.com或者img1.9tmd.com的URL?br />
  另外Q在处理静态页面或者图片、js{访问方面,可以考虑使用lighttpd代替ApacheQ它提供了更轻量U和更高效的处理能力?/span>

3、数据库集群和库表散?/span>
  大型|站都有复杂的应用,q些应用必须使用数据库,那么在面对大量访问的时候,数据库的瓉很快p昄出来Q这时一台数据库很快无法满_用,于是我们需要用数据库集群或者库表散列?br />
  在数据库集群斚wQ很多数据库都有自己的解x案,Oracle、Sybase{都有很好的ҎQ常用的MySQL提供的Master/Slave也是cM的方案,您用了什么样的DBQ就参考相应的解决Ҏ来实施即可?br />
  上面提到的数据库集群׃在架构、成本、扩张性方面都会受到所采用DBcd的限Ӟ于是我们需要从应用E序的角度来考虑改善pȝ架构Q库表散列是常用q且最有效的解x案。我们在应用E序中安装业务和应用或者功能模块将数据库进行分,不同的模块对应不同的数据库或者表Q再按照一定的{略Ҏ个页面或者功能进行更的数据库散列,比如用户表,按照用户IDq行表散列,q样p够低成本的提升系l的性能q且有很好的扩展性。sohu的论坛就是采用了q样的架构,论坛的用户、设|、帖子等信息q行数据库分,然后对帖子、用h照板块和IDq行散列数据库和表,最l可以在配置文g中进行简单的配置便能让系l随时增加一C成本的数据库q来补充pȝ性能?br />
4、缓?/span>
  ~存一词搞技术的都接触过Q很多地方用到缓存。网站架构和|站开发中的缓存也是非帔R要。这里先讲述最基本的两U缓存。高U和分布式的~存在后面讲q?br />
  架构斚w的缓存,对Apache比较熟悉的h都能知道Apache提供了自qmod_proxy~存模块Q也可以使用外加的Squidq行~存Q这两种方式均可以有效的提高Apache的访问响应能力?br />
  |站E序开发方面的~存QLinux上提供的Memcached是常用的~存ҎQ不web~程语言都提供memcache讉K接口Qphp、perl、c和java都有Q可以在web开发中使用Q可以实时或者Cron的把数据、对象等内容q行~存Q策略非常灵zR一些大型社Z用了q样的架构?br />
  另外Q在使用web语言开发的时候,各种语言基本都有自己的缓存模块和ҎQPHP有Pear的Cache模块和eAccelerator加速和Cache模块Q还要知名的Apc、XCacheQ国人开发的Q支持!Qphp~存模块QJava更多了Q?net不是很熟悉,怿也肯定有?br />
5、镜?/span>
  镜像是大型网站常采用的提高性能和数据安全性的方式Q镜像的技术可以解决不同网l接入商和地域带来的用户讉K速度差异Q比如ChinaNet和EduNet之间的差异就促了很多网站在教育|内搭徏镜像站点Q数据进行定时更新或者实时更新。在镜像的细节技术方面,q里不阐q太深,有很多专业的现成的解x构和产品可选。也有廉L通过软g实现的思\Q比如Linux上的rsync{工兗?br />
6、负载均?/span>
  负蝲均衡是大型|站解决高负药问和大量q发h采用的终极解军_法?br />
  负蝲均衡技术发展了多年Q有很多专业的服务提供商和品可以选择Q我个h接触q一些解x法,其中有两个架构可以给大家做参考。另外有兛_U的负蝲均衡DNS轮@和较专业的CDN架构׃多说了?br />
6.1 g四层交换
  W四层交换用第三层和第四层信息包的报头信息Q根据应用区间识别业务流Q将整个区间D늚业务分配到合适的应用服务器进行处理。 W四层交换功能就象是虚IPQ指向物理服务器。它传输的业务服从的协议多种多样Q有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基上,需要复杂的载量q法。在IP世界Q业务类型由l端TCP或UDP端口地址来决定,在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同军_?br />
  在硬件四层交换品领域,有一些知名的产品可以选择Q比如Alteon、F5{,q些产品很昂贵,但是物有所|能够提供非常优秀的性能和很灉|的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon搞定了?br />
6.2 软g四层交换
  大家知道了硬件四层交换机的原理后Q基于OSI模型来实现的软g四层交换也就应运而生Q这L解决Ҏ实现的原理一_不过性能E差。但是满一定量的压力还是游刃有余的Q有软g实现方式其实更灵z,处理能力完全看你配置的熟悉能力?br />
  软g四层交换我们可以使用Linux上常用的LVS来解冻ILVS是Linux Virtual ServerQ他提供了基于心跳线heartbeat的实时灾隑ֺ对解x案,提高pȝ的鲁性,同时可供了灵zȝ虚拟VIP配置和管理功能,可以同时满多种应用需求,q对于分布式的系l来说必不可?br />
  一个典型的使用负蝲均衡的策略就是,在Y件或者硬件四层交换的基础上搭建squid集群Q这U思\在很多大型网站包括搜索引擎上被采用,q样的架构低成本、高性能q有很强的扩张性,随时往架构里面增减节点都非常容易。这L架构我准备空了专门详l整理一下和大家探讨?br />
6.3 七层交换
  大家都知道TCP/IP的七层协议,四层交换是基于传输层的,在这一层只能处理连接的理Q但是无法和业务兌hQ通常只能针对tcp、udp的连接来q行处理Q而真正的业务逻辑需要后面的服务器群自己来处理,随着技术的发展Q今天,我们在很多高U的应用中出C七层交换?br />
七层交换是基于TCP/IP的第七层应用层来实现的,在这一层上Q首先我们可以区分出具体的应用,比如HTTP、TELNET、FTP、DNS{等Q还能根据应用中传送的内容来进行策略的理Q比如我们有q么两个|站的\?a.com/music/… 和a.com/photo/… NBA,说520 ,BT下蝲,原来Z四层交换只能把这两个url的请求都分发到后面一l服务器上,但是七层交换可以判断讉K的是music/q是photo/路径Q然后分别分发到不通的服务器群上,从而实现更灉|的系l架构设计?br />
当然Q七层交换也分硬件和软g的实现方式,在这里我不细说了Q硬件有著名的F5、Nortel{,软g有Haproxy{,当然Q七层交换的软g目前q是在性能上要q远差别于硬件实现的Q要知道Q这些硬仉h不菲  

ȝQ?br />   
引用
对于大型|站来说Q前面提到的每个Ҏ可能都会被同时用到QMichaelq里介绍得比较浅显,具体实现q程中很多细节还需要大家慢慢熟悉和体会Q有时一个很的squid参数或者apache参数讄Q对于系l性能的媄响就会很大,希望大家一赯论,辑ֈ抛砖引玉之效?/div>