转蝲请保留出处:俊麟 Michael’s blog (http://www.toplee.com/blog/?p=71)
Trackback Url : http://www.toplee.com/blog/wp-trackback.php?p=71

  我在CERNET做过拨号接入q_的搭建,而后在Yahoo&3721从事q搜索引擎前端开发,又在MOP处理q大型社区猫扑大杂烩? 架构升{工作,同时自己接触和开发过不少大中型网站的模块Q因此在大型|站应对高负载和q发的解x案上有一些积累和l验Q可以和大家一h讨一下?/p>


一个小型的|站Q比如个人网站,可以使用最单的html静态页面就实现了,配合一些图片达到美化效果,所有的面均存攑֜一个目录下Q这L|站? pȝ架构、性能的要求都很简单,随着互联|业务的不断丰富Q网站相关的技术经q这些年的发展,已经l分到很l的Ҏ面面Q尤其对于大型网站来_所采用? 技术更是涉及面非常q,从硬件到软g、编E语a、数据库、WebServer、防火墙{各个领域都有了很高的要求,已经不是原来单的html静态网站所 能比拟的?/p>

  大型|站Q比如门L站。在面对大量用户讉K、高q发h斚wQ基本的解决Ҏ集中在这样几个环节:使用高性能的服务器、高性能的数据库、高效率的编E语a、还有高性能的Web容器。但是除了这几个斚wQ还没法Ҏ解决大型|站面的高负蝲和高q发问题?/p>

  上面提供的几个解x\在一定程度上也意味着更大的投入,q且q样的解x\具备瓉Q没有很好的扩展性,下面我从低成本、高性能和高扩张性的角度来说说我的一些经验?/p>

1、HTML静态化
其实大家都知道,效率最高、消耗最的是U静态化的html面Q所以我们尽可能使我们的|站上的面采用静态页面来实现Q这个最单的Ҏ其实? 是最有效的方法。但是对于大量内容ƈ且频J更新的|站Q我们无法全部手动去挨个实现Q于是出C我们常见的信息发布系lCMSQ像我们常访问的各个门户? 点的新闻频道Q甚至他们的其他频道Q都是通过信息发布pȝ来管理和实现的,信息发布pȝ可以实现最单的信息录入自动生成静态页面,q能具备频道理、权 限管理、自动抓取等功能Q对于一个大型网站来_拥有一套高效、可理的CMS是必不可的?/p>

  除了门户和信息发布类型的|站Q对于交互性要求很高的C֌cd|站来说Q尽可能的静态化也是提高性能的必要手D,社区内的帖子、文章进行实? 的静态化Q有更新的时候再重新静态化也是大量使用的策略,像Mop的大杂烩是使用了这L{略Q网易社区等也是如此。目前很多博客也都实C静态化Q我 使用的这个BlogE序WordPressq没有静态化Q所以如果面寚w负蝲讉KQwww.toplee.com一定不能承?:)

  同时Qhtml静态化也是某些~存{略使用的手D,对于pȝ中频J用数据库查询但是内容更新很小的应用,可以考虑使用html静态化来实玎ͼ 比如论坛中论坛的公用讄信息Q这些信息目前的L论坛都可以进行后台管理ƈ且存储再数据库中Q这些信息其实大量被前台E序调用Q但是更新频率很,可以 考虑这部分内容q行后台更新的时候进行静态化Q这样避免了大量的数据库讉Kh?/p>

  在进行html静态化的时候可以用一U折中的ҎQ就是前端用动态实玎ͼ在一定的{略下进行定旉态化和定时判断调用,q个能实现很多灵zL的操作Q我开发的台球|站故h?www.8zone.cn)是使用了这LҎQ我通过讑֮一些html静态化的时间间隔来对动态网站内容进行缓存,辑ֈ分担大部分的压力到静态页面上Q可以应用于中小型网站的架构上。故人居|站的地址Q?a >http://www.8zone.cnQ顺便提一下,有喜Ƣ台球的朋友多多支持我这个免费网?)

2、图片服务器分离
大家知道Q对于Web服务器来_不管是Apache、IISq是其他容器Q图片是最消耗资源的Q于是我们有必要图片与面q行分离Q这是基本上? 型网站都会采用的{略Q他们都有独立的囄服务器,甚至很多台图片服务器。这L架构可以降低提供面讉Kh的服务器pȝ压力Qƈ且可以保证系l不会因 为图片问题而崩溃?/p>

  在应用服务器和图片服务器上,可以q行不同的配|优化,比如Apache在配|ContentType的时候可以尽量少支持Q尽可能的LoadModuleQ保证更高的pȝ消耗和执行效率?/p>

  我的台球|站故h?a >8zone.cn也用了囄服务器架构上的分,目前是仅仅是架构上分,物理上没有分,׃没有׃更多的服务器:)Q大家可以看到故人居上的囄q接都是cMimg.9tmd.com或者img1.9tmd.com的URL?/p>

  另外Q在处理静态页面或者图片、js{访问方面,可以考虑使用lighttpd代替ApacheQ它提供了更轻量U和更高效的处理能力?/p>

3、数据库集群和库表散?/strong>
大型|站都有复杂的应用,q些应用必须使用数据库,那么在面对大量访问的时候,数据库的瓉很快p昄出来Q这时一台数据库很快无法满_用,于是我们需要用数据库集群或者库表散列?/p>

  在数据库集群斚wQ很多数据库都有自己的解x案,Oracle、Sybase{都有很好的ҎQ常用的MySQL提供的Master/Slave也是cM的方案,您用了什么样的DBQ就参考相应的解决Ҏ来实施即可?/p>

  上面提到的数据库集群׃在架构、成本、扩张性方面都会受到所采用DBcd的限Ӟ于是我们需要从应用E序的角度来考虑改善pȝ架构Q库表散? 是常用ƈ且最有效的解x案。我们在应用E序中安装业务和应用或者功能模块将数据库进行分,不同的模块对应不同的数据库或者表Q再按照一定的{略Ҏ? 面或者功能进行更的数据库散列,比如用户表,按照用户IDq行表散列,q样p够低成本的提升系l的性能q且有很好的扩展性。sohu的论坛就是采? 了这L架构Q将论坛的用戗设|、帖子等信息q行数据库分,然后对帖子、用h照板块和IDq行散列数据库和表,最l可以在配置文g中进行简单的配置 便能让系l随时增加一C成本的数据库q来补充pȝ性能?/p>

4、缓?/strong>
~存一词搞技术的都接触过Q很多地方用到缓存。网站架构和|站开发中的缓存也是非帔R要。这里先讲述最基本的两U缓存。高U和分布式的~存在后面讲q?/p>

  架构斚w的缓存,对Apache比较熟悉的h都能知道Apache提供了自qmod_proxy~存模块Q也可以使用外加的Squidq行~存Q这两种方式均可以有效的提高Apache的访问响应能力?/p>

  |站E序开发方面的~存QLinux上提供的Memcached是常用的~存ҎQ不web~程语言都提供memcache讉K接口Q?a >php、perl、c和java都有Q可以在web开发中使用Q可以实时或者Cron的把数据、对象等内容q行~存Q策略非常灵zR一些大型社Z用了q样的架构?/p>

  另外Q在使用web语言开发的时候,各种语言基本都有自己的缓存模块和ҎQPHP?a >Pear的Cache模块?a >eAccelerator加速和Cache模块Q还要知名的Apc、XCacheQ国人开发的Q支持!Qphp~存模块QJava更多了Q?net不是很熟悉,怿也肯定有?/p>

5、镜?/strong>
镜像是大型网站常采用的提高性能和数据安全性的方式Q镜像的技术可以解决不同网l接入商和地域带来的用户讉K速度差异Q比如ChinaNet? EduNet之间的差异就促了很多网站在教育|内搭徏镜像站点Q数据进行定时更新或者实时更新。在镜像的细节技术方面,q里不阐q太深,有很多专业的? 成的解决架构和品可选。也有廉L通过软g实现的思\Q比如Linux上的rsync{工兗?/p>

6、负载均?/strong>
负蝲均衡是大型|站解决高负药问和大量q发h采用的终极解军_法?/p>

  负蝲均衡技术发展了多年Q有很多专业的服务提供商和品可以选择Q我个h接触q一些解x法,其中有两个架构可以给大家做参考。另外有兛_U的负蝲均衡DNS轮@和较专业的CDN架构׃多说了?/p>

6.1 g四层交换
W四层交换用第三层和第四层信息包的报头信息Q根据应用区间识别业务流Q将整个区间D늚业务分配到合适的应用服务器进行处理。 W四层交换功能就 象是虚IPQ指向物理服务器。它传输的业务服从的协议多种多样Q有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基上,需? 复杂的蝲量^衡算法。在IP世界Q业务类型由l端TCP或UDP端口地址来决定,在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口? 同决定?/p>

  在硬件四层交换品领域,有一些知名的产品可以选择Q比如Alteon、F5{,q些产品很昂贵,但是物有所|能够提供非常优秀的性能和很灉|的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon搞定了?/p>

6.2 软g四层交换
大家知道了硬件四层交换机的原理后Q基于OSI模型来实现的软g四层交换也就应运而生Q这L解决Ҏ实现的原理一_不过性能E差。但是满一定量的压力还是游刃有余的Q有软g实现方式其实更灵z,处理能力完全看你配置的熟悉能力?/p>

  软g四层交换我们可以使用Linux上常用的LVS来解冻ILVS是Linux Virtual ServerQ他提供了基于心跳线heartbeat的实时灾隑ֺ对解x案,提高pȝ的鲁性,同时可供了灵zȝ虚拟VIP配置和管理功能,可以同时? _U应用需求,q对于分布式的系l来说必不可?/p>

  一个典型的使用负蝲均衡的策略就是,在Y件或者硬件四层交换的基础上搭建squid集群Q这U思\在很多大型网站包括搜索引擎上被采用,q样的架构低成本、高性能q有很强的扩张性,随时往架构里面增减节点都非常容易。这L架构我准备空了专门详l整理一下和大家探讨?/p>

ȝQ?br> 对于大型|站来说Q前面提到的每个Ҏ可能都会被同时用到QMichaelq里介绍得比较浅显,具体实现q程中很多细节还需要大家慢慢熟悉和体会Q? 有时一个很的squid参数或者apache参数讄Q对于系l性能的媄响就会很大,希望大家一赯论,辑ֈ抛砖引玉之效?/p>