摘要: 年關到了,商家忙著促銷,網站忙著推廣,阿里軟件的服務集成平臺也面臨第一次多方大規模的壓力考驗。根據該平臺5.3版本的壓力測試結果,我們估算了一下現有的推廣會帶來的壓力,基本上確定了服務集成平臺年底不需要擴容。SA(System Administrator,系統管理員)為了保險起見還是通過請求方式來做定時的心跳檢測,保證服務集成平臺的可靠性。結果阿里旺旺推廣開始的第一天,SA的報警短信就在幾個忙時段不停地發告警,但是查看生產環境的服務器狀況以及應用狀況后看不出有什么問題,于是開始懷疑是否告警機制不是很合理。幾日的訪問記錄統計報告看過以后,發現了幾個問題,首先由于推廣是在IM登錄時段集中式的推廣,因此高峰期比較集中,壓力也很大,而告警發生的時刻也是那些時候;另外發現那些推廣使用的API的處理時間比較長,同時還有些出現了問題,這幾天除了服務集成平臺告警以外,那些API服務器也在告警;因此可以看出問題應該是由于API提供商響應速度慢而拖累了服務集成平臺的處理能力,監控機制在高峰情況下沒有得到及時的響應,就認為是服務器已經處于無效狀態。
閱讀全文