一些運(yùn)行在Nginx上的網(wǎng)站有時(shí)候會(huì)出現(xiàn)“502 Bad Gateway”錯(cuò)誤,有些時(shí)候甚至頻繁的出現(xiàn)。以下是小編搜集整理的一些Nginx 502錯(cuò)誤的排查方法,供參考:
Nginx 502錯(cuò)誤的原因比較多,是因?yàn)樵诖砟J较潞蠖朔?wù)器出現(xiàn)問(wèn)題引起的。這些錯(cuò)誤一般都不是nginx本身的問(wèn)題,一定要從后端找原因!但nginx把這些出錯(cuò)都攬?jiān)谧约荷砩狭?,著?shí)讓nginx的推廣者備受置疑,畢竟從字眼上理解,bad gateway?不就是bad nginx嗎?讓不了解的人看到,會(huì)直接把責(zé)任推在nginx身上,希望nginx下一個(gè)版本會(huì)把出錯(cuò)提示寫(xiě)稍微友好一些,至少不會(huì)是現(xiàn)在簡(jiǎn)單的一句 502 Bad Gateway,另外還不忘附上自己的大名。
Nginx 502的觸發(fā)條件
502錯(cuò)誤最通常的出現(xiàn)情況就是后端主機(jī)當(dāng)機(jī)。在upstream配置里有這么一項(xiàng)配置:proxy_next_upstream,這個(gè)配置指定了 nginx在從一個(gè)后端主機(jī)取數(shù)據(jù)遇到何種錯(cuò)誤時(shí)會(huì)轉(zhuǎn)到下一個(gè)后端主機(jī),里頭寫(xiě)上的就是會(huì)出現(xiàn)502的所有情況拉,默認(rèn)是error timeout。error就是當(dāng)機(jī)、斷線之類(lèi)的,timeout就是讀取堵塞超時(shí),比較容易理解。我一般是全寫(xiě)上的:
proxy_next_upstream error timeout invalid_header http_500 http_503;
不過(guò)現(xiàn)在可能我要去掉http_500這一項(xiàng)了,http_500指定后端返回500錯(cuò)誤時(shí)會(huì)轉(zhuǎn)一個(gè)主機(jī),后端的jsp出錯(cuò)的話(huà),本來(lái)會(huì)打印一堆 stacktrace的錯(cuò)誤信息,現(xiàn)在被502取代了。但公司的程序員可不這么認(rèn)為,他們認(rèn)定是nginx出現(xiàn)了錯(cuò)誤,我實(shí)在沒(méi)空跟他們解釋502的原理 了……
503錯(cuò)誤就可以保留,因?yàn)楹蠖送ǔJ莂pache resin,如果apache死機(jī)就是error,但resin死機(jī),僅僅是503,所以還是有必要保留的。
解決辦法
遇到502問(wèn)題,可以?xún)?yōu)先考慮按照以下兩個(gè)步驟去解決。
1、查看當(dāng)前的PHP FastCGI進(jìn)程數(shù)是否夠用:
netstat -anpo | grep "php-cgi" | wc -l
如果實(shí)際使用的“FastCGI進(jìn)程數(shù)”接近預(yù)設(shè)的“FastCGI進(jìn)程數(shù)”,那么,說(shuō)明“FastCGI進(jìn)程數(shù)”不夠用,需要增大。
2、部分PHP程序的執(zhí)行時(shí)間超過(guò)了Nginx的等待時(shí)間,可以適當(dāng)增加nginx.conf配置文件中FastCGI的timeout時(shí)間,例如:
http {
fastcgi_connect_timeout 300;
fastcgi_send_timeout 300;
fastcgi_read_timeout 300;
......
}
......
php.ini中memory_limit設(shè)低了會(huì)出錯(cuò),修改了php.ini的memory_limit為64M,重啟nginx,發(fā)現(xiàn)好了,原來(lái)是PHP的內(nèi)存不足了。
如果這樣修改了還解決不了問(wèn)題,可以參考下面這些方案:
一、max-children和max-requests
一臺(tái)服務(wù)器上運(yùn)行著nginx php(fpm) xcache,訪問(wèn)量日均 300W pv左右。
最近經(jīng)常會(huì)出現(xiàn)這樣的情況:php頁(yè)面打開(kāi)很慢,cpu使用率突然降至很低,系統(tǒng)負(fù)載突然升至很高,查看網(wǎng)卡的流量,也會(huì)發(fā)現(xiàn)突然降到了很低。這種情況只持續(xù)數(shù)秒鐘就恢復(fù)了。
檢查php-fpm的日志文件發(fā)現(xiàn)了一些線索。
Sep 30 08:32:23.289973 [NOTICE] fpm_unix_init_main(), line 271: getrlimit(nofile): max:51200, cur:51200 Sep 30 08:32:23.290212 [NOTICE] fpm_sockets_init_main(), line 371: using inherited socket fd=10, “127.0.0.1:9000″ Sep 30 08:32:23.290342 [NOTICE] fpm_event_init_main(), line 109: libevent: using epoll Sep 30 08:32:23.296426 [NOTICE] fpm_init(), line 47: fpm is running, pid 30587
在這幾句的前面,是1000多行的關(guān)閉children和開(kāi)啟children的日志。
原來(lái),php-fpm有一個(gè)參數(shù) max_requests,該參數(shù)指明了,每個(gè)children最多處理多少個(gè)請(qǐng)求后便會(huì)被關(guān)閉,默認(rèn)的設(shè)置是500。因?yàn)閜hp是把請(qǐng)求輪詢(xún)給每個(gè) children,在大流量下,每個(gè)childre到達(dá)max_requests所用的時(shí)間都差不多,這樣就造成所有的children基本上在同一時(shí)間 被關(guān)閉。
在這期間,nginx無(wú)法將php文件轉(zhuǎn)交給php-fpm處理,所以cpu會(huì)降至很低(不用處理php,更不用執(zhí)行sql),而負(fù)載會(huì)升至很高(關(guān)閉和開(kāi)啟children、nginx等待php-fpm),網(wǎng)卡流量也降至很低(nginx無(wú)法生成數(shù)據(jù)傳輸給客戶(hù)端)
解決問(wèn)題很簡(jiǎn)單,增加children的數(shù)量,并且將 max_requests 設(shè)置未 0 或者一個(gè)比較大的值:
打開(kāi) /usr/local/php/etc/php-fpm.conf調(diào)大以下兩個(gè)參數(shù)(根據(jù)服務(wù)器實(shí)際情況,過(guò)大也不行)
<value name="max_children">5120</value> <value name="max_requests">600</value>
然后重啟php-fpm。
二、增加緩沖區(qū)容量大小
將nginx的error log打開(kāi),發(fā)現(xiàn)“pstream sent too big header while reading response header from upstream”這樣的錯(cuò)誤提示。查閱了一下資料,大意是nginx緩沖區(qū)有一個(gè)bug造成的,我們網(wǎng)站的頁(yè)面消耗占用緩沖區(qū)可能過(guò)大。參考老外寫(xiě)的修 改辦法增加了緩沖區(qū)容量大小設(shè)置,502問(wèn)題徹底解決。后來(lái)系統(tǒng)管理員又對(duì)參數(shù)做了調(diào)整只保留了2個(gè)設(shè)置參數(shù):client head buffer,fastcgi buffer size。
三、request_terminate_timeout
如果主要是在一些post或者數(shù)據(jù)庫(kù)操作的時(shí)候出現(xiàn)502這種情況,而不是在靜態(tài)頁(yè)面操作中常見(jiàn),那么可以查看一下php-fpm.conf設(shè)置中的一項(xiàng):
request_terminate_timeout
這個(gè)值是max_execution_time,就是fast-cgi的執(zhí)行腳本時(shí)間。
0s
0s為關(guān)閉,就是無(wú)限執(zhí)行下去。(當(dāng)時(shí)裝的時(shí)候沒(méi)仔細(xì)看就改了一個(gè)數(shù)字)問(wèn)題解決了,執(zhí)行很長(zhǎng)時(shí)間也不會(huì)出錯(cuò)了。優(yōu)化fastcgi中,還可以改改這個(gè)值5s 看看效果。
php-cgi進(jìn)程數(shù)不夠用、php執(zhí)行時(shí)間長(zhǎng)、或者是php-cgi進(jìn)程死掉,都會(huì)出現(xiàn)502錯(cuò)誤。