作者:
beauty9235
鏈接:
http://beauty9235.javaeye.com/blog/229638
發表時間: 2008年06月19日
聲明:本文系JavaEye網站發布的原創博客文章,未經作者書面許可,嚴禁任何網站轉載本文,否則必將追究法律責任!
訪問速度和穩定性乃優秀網站之重要技術指標,亦是提升網站瀏覽率之重要環節。在伺服器世界里,穩定代表一切。按業界的一般標準,高檔伺服器產品的穩定度達99.99%,也就是說伺服器運行一年內的當機(Hang)時間平均不超過53分鐘,中檔伺服器的穩定度為99%,平均當機時間是88小時,低檔伺服器的穩定度僅為90%,平均當機時間高達876小時。
數據中心伺服器托管一般都是采用1U、2U機箱,尤其是訪問量大的mail、web、ftp類的伺服器,對穩定度的要求很嚴格。如何降低伺服器故 障及優化其性能一直是業界所關心的話題。要達到百分之百的零當機是不可能的,我們要做的是深入分析影響伺服器穩定度的關鍵問題,采用針對性技術有效提高伺服器的穩定性,使當機時間盡可能地縮短。
就筆者的實際經驗而言,影響伺服器穩定與安全之因素主要有伺服器的電源供應器、散熱系統、伺服器主板選擇、軟件運用等。本文將就上述硬件的合理配置、如何評測、以及伺服器軟件設置、優化等方面的問題進行探討。
一、電源供應器
熟悉電腦的用戶都知道,電源質量的優劣直接影響到系統的穩定和硬件的使用壽命,并不僅僅是將220V市電的交流電轉變為電腦所需要的低電壓強電流的直流電這么簡單。
如果將CPU(處理器)比擬做一臺伺服器的大腦,那么電源就可以說是伺服器的血液了。伺服器對電源的要求不僅是要求提供穩定的電流和較高的功率,還必須能應付各種苛刻的工作環境,同時還要求常年不間斷地工作。隨著CPU主頻的提高,功耗將越來越大,硬盤(Harddis)容量和轉速等也越來越大、越快,這對電源的要求就更高了。伺服器通常支持的CPU可以達到2個甚至更多。所使用SCSI硬盤約為2-4個,RAM容量2GB以上,以上配件在消耗能量方面都是驚人的。比如Intel P43.2G CPU 功耗達到82W(瓦特);Prescott 0.09微米制程P4-E 3.2G更達103W,所以目前Prescott CPU 己不適合應用在1U、2U機箱做伺服器。而SCSI硬盤的功率也在10W以上,所以伺服器系統所需要的功率遠遠高于一般PC,一般PC只要200W電源就夠用了,而伺服器1U機箱應有300W,2U應有350W。
高品質電源是伺服器正常運行的重要保證,也是一般人最容易忽略的。實踐經驗告訴我們,電源導致伺服器經常自動重啟(Reboot),致使硬盤出現壞道。功率不足使+5V、+3.3V和+12V在滿負荷狀態運行時(CPU使用率保持在100%,硬盤也在大量讀寫資料,功率消耗大)出現電壓波動,或者散熱不良造成過熱,是經常性自動重啟的主要原因,造成伺服器不能正常提供服務,同時也會縮短硬件的壽命。
二、散熱
散熱是伺服器要解決的首要問題之一。伺服器硬件一般放在1U、2U機箱內配合機架統一使用,機架伺服器的寬度為19英寸,高度以U為單位(1U=1.75英寸=44.45毫米),在狹小的空間內有大量的硬件高速運行狀態下散發的熱量非常大,且伺服器一般要求24小時不間斷工作,如果機箱材料的選用或內部結構設計不良,導致整體散熱性能差,則會經常導致伺服器出現當機、重啟等狀況。
首先,伺服器機箱的選料就馬虎不得。首選全鋁質的或者鋁合金的,次選鐵板。顏色應漆成黑色,以利于散熱。采用全銅及直接整體銅切割出來的CPU散熱器較好,
其散熱效果優于其它材料,是伺服器CPU散熱的理想選擇。但為達到最佳散熱效果,須配合品質良好的散熱膏并正確地使用。筆者采用Arctic Silver 5純銀散熱膏,嚴格按照說明書操作,成功將CPU溫度降低3-4℃。
再者,采用高風量(CFM)散熱風扇對伺服器來說也是關鍵組件,散熱風扇一般分滾珠軸承、油封軸承兩種。滾珠軸承較為耐用,所以廣泛應用,雖噪聲略高,但實際上伺服器放在機房中,噪音干擾不成問題。判斷風量的大小可以從風扇注明的A(電流量)或W(功率)來作選擇,數字越大風量越強。可選擇Delta、Sunon、Nidec、Sany、Y.S.Tech等名牌,以確保長期運轉不出故障。為提高散熱效果,也可選用小型鼓風機(BLOWER)。筆者使用的伺服器,選用小型鼓風機配合1U機箱,另加6個萬轉4CM電流0.24A強力風扇使機箱溫度降低了8-10℃左右。有興趣了解各
類強力風扇的朋友可到超頻專門店網址http://www.pcbulb.com/查詢。近期Sany推出1.5萬轉4CM電流0.55A風量20.83CFM超強力風扇是1U伺服器散熱較佳配搭。
另一方面要合理設計風道,在安裝好硬件后把機箱內的cable、電線整齊地扎好,以保證機箱內氣流循環無阻,能更有效地對CPU、RAM、硬盤、南北橋晶片等進行散熱。Intel P4CPU溫度75℃、AMD CPU溫度86℃是工作溫度極限,高溫時CPU將會自動降低工作效率。所以在1U機箱伺服器P4平臺full loading CPU溫度能維持65℃左右及機箱溫度50℃以內可算不錯的散熱效果。注:(Intel 的設計規范CPU溫度不超過72℃)
三、主板
不可置疑,主板對于伺服器至關重要。主板猶如人的骨架,承載著CPU、RAM(記憶體)等重要部件的運行。如果你的伺服器電源質量可靠,功率充足;機箱及CPU散熱良好,但仍偶爾會莫名其妙的當機,就該考慮問題可能出自主板了。有些主板在當機后,因有自我保護功能,必須關掉電源再開機;更有甚者,必須清除CMOS中的記憶,才可以重啟,這對伺服器的遠程維護與管理造成嚴重障礙。
INTEL主板是少數通過WHQL微軟WINDOWS操作系統硬件質量認證的產品,穩定性和兼容性經受實際考驗,INTEL生產的主板嚴格遵照規格制造。在性能方面INTEL原廠伺服器主板針對WINDOWS操作系統做了優化設計,加上INTEL對自己生產的處理器最為了解,更容易釋放出自家處理器的性能,可以說INTEL的主板是高品質與高性能兼具的產品。但是INTEL也有為了穩定性而犧牲性能的傳統,與同級的主板晶片組比較,INTEL的主板總是比其它大廠的主板要慢上一點,功能方面也沒有太多的擴展性。但是在伺服器最注重穩定性的原則上,筆者強烈推薦采用INTEL主板。
四、評測
綜上所述,電源、主板及散熱是如此重要。直接影響到伺服器的穩定與安全,那么,你要如何判斷其好壞呢?下面,我們將自己動手進行評測,去了解自己的伺服器是否處于一個良好的工作狀態。
測試平臺的搭建,主要考慮電源輸出電壓的穩定和主板、CPU等機箱內關鍵部分溫度的測試。對于電源的測試相對比較簡單,我們當然沒有必要像專業電源制造廠商一樣,用示波器、萬用表甚至用ATE(自動測試儀)等專業工具來進行測試,僅通過軟件來進行測試就足夠了。雖然通過軟件測試只能作為一個參考,所測值可能會與你的電源的真實值有所差距,但是通過這個測試,我們還是能大概看清自己伺服器中電源的"真實面目"。當然,探測主板及CPU的溫度,用軟件來測試也是很容易的事了。
Windows任務管理器可以監視電腦的CPU 和RAM使用情況、程式和進程的相關信息。建議搭配下述推薦評測軟件共同使用。

*MBM5溫度、電壓監控軟件
MBM5是一款用來探測主板CPU溫度以及電壓的軟件。推薦使用Motherboard Monitor 5(以下簡稱MBM5)來測試。MBM5最新5.3.6.0英文版本、最新5.3.6.0多語言版本。其適合作業系統:Windows 9X/Me/2000/XP,可在世界網絡:http://www.linkwan.com/gb/download/下載。
當溫度超高過你的設定值時,MBM5便會啟動警示音樂或是顯示警示文字,還可以輸出TXT或HTML格式的日志文件。
安裝MBM5完成后,開始設置,這是關健的一步。因為不同主板的檢測晶片是不同的,所以要先設定了MBM5。在程式集里面找出MBM5,然后運行MBM 5Config Wizard。
如下畫面出現,點擊NEXT。

如安裝好的MBM5不能完全支持你最新的主板,請試試點擊Update(升級),一般更新后軟件會對更多新主板支持。升級完成后,進入下一步,出現如下畫面,列出許多廠家和主板型號,根據你的主板,選擇相應的主板廠商和主板名稱。比如,筆者的主板為Intel S875WP1-E,選好后點擊NEXT。

之后會出現一些選項,比如選擇溫度單位是攝氏度(Celsius)還是華氏度(Fahrenheit)。不同的主板也可能會出現不相同的設定,一般使用默認。

最后點擊Finish。到了這一步許多朋友可能會想,這樣就應該完成MBM5的安裝了吧?其實不然。還有一個非常重要的設置,否則,MBM5測出來的值是不正確的。

運行MBM5,打開管理界面,在安裝了語言包后,你可以選擇繁體/簡體中文。

然后在Voltages(電壓)中,Voltages Configuration(電壓適配器)要選擇自己的主板的型號,如果在列表中沒有你的主板型號,請先不要急,那是因為一般的主板都是采用標準的ITE8712F傳感器,但你也可以對應你的主板進行相應的選擇。
顯示CPU溫度、主頻,風扇轉速、機箱溫度
點擊Apply(應用)后,再看一下Dashboard看看是否都正常。該軟件具體的使用,大家可按提示操作。
*OCCT電源測試軟件
談到電源質量的測試,就不得不提一下OCCT這個軟件。其適合作業系統:Windows 9X/Me/2000/XP 可在http://www.linkwan.com/gb/download/下載。
OCCT需要和MBM5這個軟件共同協作才能為用戶提供一份完美的電源質量報告。在測試過程中,OCCT通過MBM5所測出的資料,自動模擬電腦滿負載的狀態,讓電腦連續30分鐘滿負載運行,最后得出相應的電壓波動圖表,通過這些圖表,用戶就可以判斷出電源是否令人滿意了。
在安裝好MBM5及OCCT后,點擊桌面捷徑方式就可以進入OCCT的主界面了。首先點擊右下方的"Option"(選項)鍵進入設置界面,在這里用戶可以對測試電壓的負載進行設置,供用戶選擇的有"Lowest"(最低)或者"Highest"(最高)等5個等級,還可以設置使用內存(RAM)的大小、CPU溫度以及輸出圖像的格式。設置完畢后,點擊"Go Back"(返回)回到主界面,再點擊左下方的"Test"(測試)鍵就可以對電源進行測試了。

測試將進行30分鐘,這期間,OCCT占用系統資源很多,用戶最好不要進行其它操作,否則可能會出現死機。測試完畢后,OCCT將把測試結果以分析圖的方式呈現在用戶眼前,這些分別是"系統(機箱)溫度變化"、"CPU溫度變化"、"+5V的電壓波動"、"+3.3V的電壓波動"、"+12V的電壓波動"以及"CPU電壓波動"。
如果用戶的電源品質良好,那么圖表上的各種電壓波動幅度會非常小,即使有波動也是在正常范圍之內;如果用戶電源質量比較低劣,那么圖表上各種電壓的波動范圍也會相應較大。
OCCT還可以單獨對CPU進行測試,只要點擊主界面下中間的"Torture"(CPU穩定檢測)鍵就可以對CPU進行穩定性測試,并向用戶報告錯誤。另外,由于OCCT可以實時監控CPU溫度、系統(機箱)溫度以及電源各個輸出電壓的情況,所以它也可以作為一款監控軟件使用。
好了,我們終于可以開始我們的測試了。打開OCCT軟件(它會自動關掉MBM5)點擊test(測試)。你可以去休息了,約半個小時后再來看看成績吧。
在OCCT進行測試的過程中,它會模擬你的伺服器在滿負荷的狀態下運行。在這期間,我們來了解一下伺服器的電源吧。為了保證電源的輸出穩定,伺服器電源供應器都設計了一套自動補償電路,也就是當電源的其中一組電壓需要更大的功率的時候,它就會提高那組電壓的輸出電壓,但由于不是每組電壓都可以單獨進行補償,也就是說,我們的電源在提高一組電壓的同時,其它的所有電壓均會相應的提高。這樣,就會形成一個特殊的現象,比如+5V因為負載太大而導致輸出電壓開始下降,電源會同時增加所有的輸出電壓,并不會單獨對+5V進行控制,其結果必然導致其它電壓組因為輸出電壓過渡補償而超過額定的電壓,當電源設計欠佳或輸出功率不足時這種特有的現象就更加明顯!這樣,電腦內許多設備都會在較高的電壓環境下工作。
那什么范圍才算是合理波動呢?電源輸出的正電壓,合理的波動范圍在-5%~+5%之內,而負電壓的合理波動范圍在-10%~+10%。

只要電源的輸出在合理的范圍內,對電腦的配件都不會造成負面影響的,所以也不用過分地關注波動的大小。但波動的相對大小,側面反映了電源的負載能力,波動率相對越小的電源,其實際的最大輸出功率可能越大。
下面我們來看看測試結果吧,筆者的測試是在以下平臺完成的:
CPU :P4 2.8G (800FSB)
RAM :1G DDR400RAM
主板:Intel S875WP1-E
硬盤:WD360DG,36G 1萬轉SATA
電源:美基350CD(300W)

首先來看看CPU溫度,從圖中可以看出,從44℃升到64℃。看起來還是不錯的。

+3.3V電壓,大致波動范圍是3.3195-3.336V,還不錯,是在正常范圍(3.14-3.46V)內,此電壓主要應用在顯卡、PCI、南北橋等設備。

再來看一下,系統要求最高的+5V電壓,看這個圖,波動曲線還不算大,在(5.123-5.16V)范圍內供電包括CPU(舊式主版)、RAM、硬盤、光驅、I/O及主板的其它設備。

+12V,波動范圍在11.85-11.975V,波動范圍看似挺大的。主要應用在耗電量比較大的設備上,例如風扇,硬盤、光驅,新式主版用來轉換為CPU所需的電壓。

CPU電壓,我在BIOS中設置的是1.45V,所以測試出來的結果也是在1.45V左右,看起來還是平穩。

測試結果看完了,該電源供應器總的來說非常不錯,雖然所有電壓均稍微偏離中心值,但均在安全的范圍內。OCCT不對負電壓進行測試,因為這幾個電壓的輸出電流均小,而且相應的正電壓的值也就可以大概看出負電壓的波動。除了看波動范圍,還需看波動大小。由下表可見筆者伺服器所用美基350CD電源的電壓波動幅度非常小。
電壓 |
合理波動范圍 |
美基350CD (300W)實際波動范圍 |
穩壓精度 |
+5V |
4.75-5.25V |
5.123-5.16V |
3.04% |
+3.3V |
3.14-3.46V |
3.3195-3.336V |
1.1% |
+12V |
11.4-12.6V |
11.85-11.975V |
1.07% |
*Hot CPU Tester系統穩定度測試軟件
為進一步考驗伺服器的穩定性,筆者還給大家介紹一個不錯的軟件-Hot CPU Tester。其作用是考驗CPU的穩定性以及散熱系統的優劣(需要溫度監控軟件配合使用),不過在烤機(燒機)的時候還有一個附加功能,那就是可以發現CPU是否被超頻。其最新版本:4.0,其適合作業系統:Windows 9X/Me/2000/XP,可在http://www.linkwan.com/gb/download/下載。
安裝好Hot CPU Tester,桌面會顯示一個icon ,雙擊icon進入Hot CPU Tester的主界面。下面主圖左邊是菜單,在這里我們可以看到7個選項,分別是"Diagnotisc"(檢測運算測試)、"Burn-in"(CPU、RAM測試)、"Benchmark"(基準測試)、"System Info"(系統信息)、"Option"(選項)、"LiveSupport"(在線支持)以及"About"(關于)。可以看出,Hot CPU Tester是一個非常全面的測試軟件,在這里,我們著重介紹幾個Hot CPU Tester的主要功能。

*穩定性測試
穩定性測試主要是依靠"Diagnotisc"(檢測運算測試)和"Burn-in"(CPU、RAM測試)兩個功能。只要在"Diagnotisc"(檢測運算測試)的界面中單擊"Run Test"(開始測試)鍵就可以開始對系統進行測試。這個測試是讓伺服器連續運算各種項目,使CPU在一段時間內保持使用率為100%,以此來測試CPU的穩定性。
中間的界面是測試的項目,包括硬盤、內存(RAM)以及MMX等,下方有CPU資源占用的情況,通常不到幾分鐘,CPU使用率就會達到100%。如果在這種狀態下能讓Hot CPU Tester運行達1小時以上,那么CPU的穩定性就算達到標準了。另外,由于CPU長期在100%狀態下工作,會產生極大的熱量,這個時候通過MBM5溫度測試軟件就可以看到CPU及系統的溫度,并以此判斷散熱系統的優劣了。
在右下方,Hot CPU Tester會顯示測試進行的時間,以及開始測試和結束測試的時間。另外,在Option(選項)中還可以對測試進行一些設置,比如測試的時間以及測試時硬件的狀態,有一些功能需要用戶注冊后才能使用。
如果你只想測試CPU和內存,那么可以進入"Burn-in(CPU、內存測試)"的界面,在這個界面中可以設定測試的次數以及測試內存的大小,然后直接點擊"Run CPU Burn-in(開始測試CPU)"鍵或者"Run Memory Burn-in(開始測試內存)"鍵進行測試。
小提示:在進行測試的時候,由于伺服器CPU的資源占用率達到了100%,所以這個時候操作其它程式都是危險的,極可能引起系統崩潰,所以在進行Hot CPU Tester測試的時候,應該關閉其它程式。
*性能測試
在Hot CPU Tester中也有類似PCMark2003的系統性能測試。進入Benchmark(性能測試)菜單中,點擊右上角的"Run Benchmark"(開始性能測試)就可以對系統整體性能進行測試,測試項目在中間窗口中顯示,測試結果會出現在"Total Score"(總分)的空格中。
五、伺服器軟件優化
提到系統優化,我們有必要區別碎片整理和系統優化的概念。前者指系統向磁盤存儲的文件體積大于磁盤提供的連續存儲空間時,因此不得不將文件拆開分別存于幾塊不連續的物理磁盤區域,從而產生了所謂的磁盤碎片,而通過軟件的調整將其轉化成連續區域的過程稱為碎片整理。系統磁盤優化則全然不同,它有兩個方面:首先,根據文件調用的頻繁程度來調整它們在磁盤中的位置,把使用頻繁的文件放在磁盤開頭以達到最短的調用時間;另外一個過程恰好與碎片整理相反,就是整理未被占用的磁盤空間,讓它們連成一片,使以后磁盤碎片產生的可能性降至最低。
對訪問量大的伺服器,定期的磁盤整理對于提高硬盤訪問效率、保持系統穩定性非常有用。一般用戶都是習慣使用WINDOWS自帶的磁盤整理工具,它的優點在于工作時只占用CPU 10-30%適合伺服器在線時整理,不影響服務但其速度和效能往往不能令人滿意。
現介紹二個優秀磁盤優化軟件:
1)Norton Utilities
Norton Utilities是諾頓工具包Norton SystemWorks 2003中的一個組件,該軟件是一個功能強大的磁盤修復、磁盤優化、系統維護和系統優化工具。在你的伺服器上運行該軟件后,你將會發現Norton Utilities所具有的那些性能強大的功能是不可缺少。系統優化(Optimize Performance)選項中的Speed Disk工具,可用于優化系統磁盤,將最常用的檔案放在硬碟最前端,使存取時間更短,以提高伺服器性能。優化磁盤的步驟非常簡單,大家按下Optimization Map,在右邊選擇一個需要進行優化的磁盤分區,再按Start Optimizing即可開始優化磁盤。

在優化過程時,我們可以發現,Speed Disk的整理速度要比Windows自帶的碎片整理程序快許多。但由于工作時占CPU使用率就會達到50%左右,如伺服器在線時流量大,可能會影響服務。筆者在一臺使用Intel P42.8GHz處理器、1G內存、安裝WINDOWS 2000SERVER的伺服器上對Norton Utilities進行了測試。為了測試該軟件,我們在開啟許多應用程式的情況下反復的重啟伺服器、向注冊表中添加許多錯誤條目、將程式的捷徑指向錯誤的可執行檔案,并且在電腦中反復安裝和解除安裝軟件以便能夠在硬盤中產生大量磁盤碎片。在我們所做的測試中,Norton Utilities成功地報告各項錯誤,而且很好地完成了修復工作。查找及修復系統問題上Norton System Doctor(系統醫生),監測的內容要豐富得多。還有Norton Disk Doctor(磁盤醫生)和Norton System Check(系統檢查)等,功能都很強大。
2.Voptxp V7.12
除了Norton Utilities外,Voptxp v7.12也是優秀磁盤軟件,可以把磁盤一些詳細資料顯示出來包括:磁盤使用和剩余空間圖例結構圖,當前磁盤碎片個數情況,當前磁盤文件和文件夾個數,分區大小,不連續文件個數,交換文件的情況等,和傳統的磁盤碎片整理程序比較,Voptxp v7.12有著更大的優勢:多任務窗口、速度快、功能強大等特點,更在"優化"選項中有:互聯網優化和系統優化兩個不錯的功能,是一個完美的測試工具,幫你節省更多時間。

除系統及硬盤的維護問題外,操作系統的安裝與配置、系統的及時更新與升級、殺毒軟件的使用及日常的管理和維護等都是非常重要的。筆者就自己日常管理網站伺服器的經驗,整理出來供大家分享。
a、定期查看系統/網站日志,查看是否有異常報錯,以便找出網站存在的問題。系統有那些缺陷,可通過系統日志反映出來,通過網站日志,可以找到那些頁面有錯誤、那些頁面需優化、那些圖片及文件應刪除或減肥使網站訪問的效率提升。查看網站日志最好是能安裝相關的網站日志分析工具,使日志更直觀。
b、必要時重啟伺服器也是提高訪問速度的方法之一,WIN系統定期重啟是必要的,以釋放一些使用完而沒有被釋放的資源。
c、當使用ACCESS數據庫時,數據庫最好是分多個文件來處理,這樣讀取和存貯速度都會快很多。數據庫很大時最好是用MS SQL,不論是處理資料還是 數據容錯性都會有一個質的提升,使用MS SQL要定期對SQL數據庫日志進行清理,清理SQL的日志有利于降低系統資源的使用,特別是內存的占用率。
d、經常留意伺服器的資源使用量,查看是那些程式占用的系統資源比較高,是那些程式或那些內容引起的,是否屬于正常。留意系統最新的(Service Pack)補丁程式和病毒,及時更新相關軟件,打補丁程式要先在其它機上測試后再在伺服器上安裝,以免引起兼容性的問題。查看伺服器的流量,隨時分析伺服器狀態,通過流量可知伺服器是否正常,如有駭客或入侵都會產生比較大的流量。
e、WIN2000在默認情況下會安裝一些常用的組件,但是這個默認安裝是極度危險的。你應該明確地知道你需要那些服務,而且僅僅安裝你確實需要的服務。根據安全原則,最少的服務+最小的權限=最大的安全。典型的WEB伺服器需要的最小組件選擇是:只安裝IIS的Com Files,IIS Snap-In,WWW Server組件。如果你確實需要安裝其它組件,特別是:Indexing Service,FrontPage 2000Server Extensions,Internet Service Manager (HTML)這幾個危險服務,請慎重處理。其它的不在此詳述。
經過評測,您是否擁有了一臺性能穩定、處于良好工作狀態的伺服器,為迎接隨后接踵而來的訪客做好準備了呢?是的,經過了前期細致的建站準備工作,又經過了緊鑼密鼓的網站規劃建設和網絡營銷工作,相信您網站的瀏覽率和知名度將會節節攀升,名列前茅。下期筆者將就優秀中文印刷網站的排名情況和本系列文章做最后的總結。希望不久的將來您能榜上有名
本文的討論也很精彩,瀏覽討論>>
JavaEye推薦