基于Redis實(shí)現(xiàn)分布式鎖[轉(zhuǎn)]

from:http://blog.csdn.net/ugg/article/details/41894947

背景
在很多互聯(lián)網(wǎng)產(chǎn)品應(yīng)用中，有些場(chǎng)景需要加鎖處理，比如：秒殺，全局遞增ID，樓層生成等等。大部分的解決方案是基于DB實(shí)現(xiàn)的，Redis為單進(jìn)程單線程模式，采用隊(duì)列模式將并發(fā)訪問變成串行訪問，且多客戶端對(duì)Redis的連接并不存在競(jìng)爭(zhēng)關(guān)系。其次Redis提供一些命令SETNX，GETSET，可以方便實(shí)現(xiàn)分布式鎖機(jī)制。

Redis命令介紹
使用Redis實(shí)現(xiàn)分布式鎖，有兩個(gè)重要函數(shù)需要介紹

SETNX命令（SET if Not eXists）
語法：
SETNX key value
功能：
當(dāng)且僅當(dāng) key 不存在，將 key 的值設(shè)為 value ，并返回1；若給定的 key 已經(jīng)存在，則 SETNX 不做任何動(dòng)作，并返回0。

GETSET命令
語法：
GETSET key value
功能：
將給定 key 的值設(shè)為 value ，并返回 key 的舊值 (old value)，當(dāng) key 存在但不是字符串類型時(shí)，返回一個(gè)錯(cuò)誤，當(dāng)key不存在時(shí)，返回nil。

GET命令
語法：
GET key
功能：
返回 key 所關(guān)聯(lián)的字符串值，如果 key 不存在那么返回特殊值 nil 。

DEL命令
語法：
DEL key [KEY …]
功能：
刪除給定的一個(gè)或多個(gè) key ,不存在的 key 會(huì)被忽略。

兵貴精，不在多。分布式鎖，我們就依靠這四個(gè)命令。但在具體實(shí)現(xiàn)，還有很多細(xì)節(jié)，需要仔細(xì)斟酌，因?yàn)樵诜植际讲l(fā)多進(jìn)程中，任何一點(diǎn)出現(xiàn)差錯(cuò)，都會(huì)導(dǎo)致死鎖，hold住所有進(jìn)程。

加鎖實(shí)現(xiàn)

SETNX 可以直接加鎖操作，比如說對(duì)某個(gè)關(guān)鍵詞foo加鎖，客戶端可以嘗試
SETNX foo.lock <current unix time>

如果返回1，表示客戶端已經(jīng)獲取鎖，可以往下操作，操作完成后，通過
DEL foo.lock

命令來釋放鎖。
如果返回0，說明foo已經(jīng)被其他客戶端上鎖，如果鎖是非堵塞的，可以選擇返回調(diào)用。如果是堵塞調(diào)用調(diào)用，就需要進(jìn)入以下個(gè)重試循環(huán)，直至成功獲得鎖或者重試超時(shí)。理想是美好的，現(xiàn)實(shí)是殘酷的。僅僅使用SETNX加鎖帶有競(jìng)爭(zhēng)條件的，在某些特定的情況會(huì)造成死鎖錯(cuò)誤。

處理死鎖

在上面的處理方式中，如果獲取鎖的客戶端端執(zhí)行時(shí)間過長(zhǎng)，進(jìn)程被kill掉，或者因?yàn)槠渌惓１罎ⅲ瑢?dǎo)致無法釋放鎖，就會(huì)造成死鎖。所以，需要對(duì)加鎖要做時(shí)效性檢測(cè)。因此，我們?cè)诩渔i時(shí)，把當(dāng)前時(shí)間戳作為value存入此鎖中，通過當(dāng)前時(shí)間戳和Redis中的時(shí)間戳進(jìn)行對(duì)比，如果超過一定差值，認(rèn)為鎖已經(jīng)時(shí)效，防止鎖無限期的鎖下去，但是，在大并發(fā)情況，如果同時(shí)檢測(cè)鎖失效，并簡(jiǎn)單粗暴的刪除死鎖，再通過SETNX上鎖，可能會(huì)導(dǎo)致競(jìng)爭(zhēng)條件的產(chǎn)生，即多個(gè)客戶端同時(shí)獲取鎖。

C1獲取鎖，并崩潰。C2和C3調(diào)用SETNX上鎖返回0后，獲得foo.lock的時(shí)間戳，通過比對(duì)時(shí)間戳，發(fā)現(xiàn)鎖超時(shí)。
C2 向foo.lock發(fā)送DEL命令。
C2 向foo.lock發(fā)送SETNX獲取鎖。
C3 向foo.lock發(fā)送DEL命令，此時(shí)C3發(fā)送DEL時(shí)，其實(shí)DEL掉的是C2的鎖。
C3 向foo.lock發(fā)送SETNX獲取鎖。

此時(shí)C2和C3都獲取了鎖，產(chǎn)生競(jìng)爭(zhēng)條件，如果在更高并發(fā)的情況，可能會(huì)有更多客戶端獲取鎖。所以，DEL鎖的操作，不能直接使用在鎖超時(shí)的情況下，幸好我們有GETSET方法，假設(shè)我們現(xiàn)在有另外一個(gè)客戶端C4，看看如何使用GETSET方式，避免這種情況產(chǎn)生。

C1獲取鎖，并崩潰。C2和C3調(diào)用SETNX上鎖返回0后，調(diào)用GET命令獲得foo.lock的時(shí)間戳T1，通過比對(duì)時(shí)間戳，發(fā)現(xiàn)鎖超時(shí)。
C4 向foo.lock發(fā)送GESET命令，
GETSET foo.lock <current unix time>
并得到foo.lock中老的時(shí)間戳T2

如果T1=T2，說明C4獲得時(shí)間戳。
如果T1!=T2，說明C4之前有另外一個(gè)客戶端C5通過調(diào)用GETSET方式獲取了時(shí)間戳，C4未獲得鎖。只能sleep下，進(jìn)入下次循環(huán)中。

現(xiàn)在唯一的問題是，C4設(shè)置foo.lock的新時(shí)間戳，是否會(huì)對(duì)鎖產(chǎn)生影響。其實(shí)我們可以看到C4和C5執(zhí)行的時(shí)間差值極小，并且寫入foo.lock中的都是有效時(shí)間錯(cuò)，所以對(duì)鎖并沒有影響。
為了讓這個(gè)鎖更加強(qiáng)壯，獲取鎖的客戶端，應(yīng)該在調(diào)用關(guān)鍵業(yè)務(wù)時(shí)，再次調(diào)用GET方法獲取T1，和寫入的T0時(shí)間戳進(jìn)行對(duì)比，以免鎖因其他情況被執(zhí)行DEL意外解開而不知。以上步驟和情況，很容易從其他參考資料中看到。客戶端處理和失敗的情況非常復(fù)雜，不僅僅是崩潰這么簡(jiǎn)單，還可能是客戶端因?yàn)槟承┎僮鞅蛔枞讼喈?dāng)長(zhǎng)時(shí)間，緊接著 DEL 命令被嘗試執(zhí)行(但這時(shí)鎖卻在另外的客戶端手上)。也可能因?yàn)樘幚聿划?dāng)，導(dǎo)致死鎖。還有可能因?yàn)閟leep設(shè)置不合理，導(dǎo)致Redis在大并發(fā)下被壓垮。最為常見的問題還有

GET返回nil時(shí)應(yīng)該走那種邏輯？

第一種走超時(shí)邏輯
C1客戶端獲取鎖，并且處理完后，DEL掉鎖，在DEL鎖之前。C2通過SETNX向foo.lock設(shè)置時(shí)間戳T0 發(fā)現(xiàn)有客戶端獲取鎖，進(jìn)入GET操作。
C2 向foo.lock發(fā)送GET命令，獲取返回值T1(nil)。
C2 通過T0>T1+expire對(duì)比，進(jìn)入GETSET流程。
C2 調(diào)用GETSET向foo.lock發(fā)送T0時(shí)間戳，返回foo.lock的原值T2
C2 如果T2=T1相等，獲得鎖，如果T2!=T1，未獲得鎖。

第二種情況走循環(huán)走setnx邏輯
C1客戶端獲取鎖，并且處理完后，DEL掉鎖，在DEL鎖之前。C2通過SETNX向foo.lock設(shè)置時(shí)間戳T0 發(fā)現(xiàn)有客戶端獲取鎖，進(jìn)入GET操作。
C2 向foo.lock發(fā)送GET命令，獲取返回值T1(nil)。
C2 循環(huán)，進(jìn)入下一次SETNX邏輯

兩種邏輯貌似都是OK，但是從邏輯處理上來說，第一種情況存在問題。當(dāng)GET返回nil表示，鎖是被刪除的，而不是超時(shí)，應(yīng)該走SETNX邏輯加鎖。走第一種情況的問題是，正常的加鎖邏輯應(yīng)該走SETNX，而現(xiàn)在當(dāng)鎖被解除后，走的是GETST，如果判斷條件不當(dāng)，就會(huì)引起死鎖，很悲催，我在做的時(shí)候就碰到了，具體怎么碰到的看下面的問題

GETSET返回nil時(shí)應(yīng)該怎么處理？

C1和C2客戶端調(diào)用GET接口，C1返回T1，此時(shí)C3網(wǎng)絡(luò)情況更好，快速進(jìn)入獲取鎖，并執(zhí)行DEL刪除鎖，C2返回T2(nil)，C1和C2都進(jìn)入超時(shí)處理邏輯。
C1 向foo.lock發(fā)送GETSET命令，獲取返回值T11(nil)。
C1 比對(duì)C1和C11發(fā)現(xiàn)兩者不同，處理邏輯認(rèn)為未獲取鎖。
C2 向foo.lock發(fā)送GETSET命令，獲取返回值T22(C1寫入的時(shí)間戳)。
C2 比對(duì)C2和C22發(fā)現(xiàn)兩者不同，處理邏輯認(rèn)為未獲取鎖。

此時(shí)C1和C2都認(rèn)為未獲取鎖，其實(shí)C1是已經(jīng)獲取鎖了，但是他的處理邏輯沒有考慮GETSET返回nil的情況，只是單純的用GET和GETSET值就行對(duì)比，至于為什么會(huì)出現(xiàn)這種情況？一種是多客戶端時(shí)，每個(gè)客戶端連接Redis的后，發(fā)出的命令并不是連續(xù)的，導(dǎo)致從單客戶端看到的好像連續(xù)的命令，到Redis server后，這兩條命令之間可能已經(jīng)插入大量的其他客戶端發(fā)出的命令，比如DEL,SETNX等。第二種情況，多客戶端之間時(shí)間不同步，或者不是嚴(yán)格意義的同步。

時(shí)間戳的問題

我們看到foo.lock的value值為時(shí)間戳，所以要在多客戶端情況下，保證鎖有效，一定要同步各服務(wù)器的時(shí)間，如果各服務(wù)器間，時(shí)間有差異。時(shí)間不一致的客戶端，在判斷鎖超時(shí)，就會(huì)出現(xiàn)偏差，從而產(chǎn)生競(jìng)爭(zhēng)條件。
鎖的超時(shí)與否，嚴(yán)格依賴時(shí)間戳，時(shí)間戳本身也是有精度限制，假如我們的時(shí)間精度為秒，從加鎖到執(zhí)行操作再到解鎖，一般操作肯定都能在一秒內(nèi)完成。這樣的話，我們上面的CASE，就很容易出現(xiàn)。所以，最好把時(shí)間精度提升到毫秒級(jí)。這樣的話，可以保證毫秒級(jí)別的鎖是安全的。

分布式鎖的問題

1：必要的超時(shí)機(jī)制：獲取鎖的客戶端一旦崩潰，一定要有過期機(jī)制，否則其他客戶端都降無法獲取鎖，造成死鎖問題。
2：分布式鎖，多客戶端的時(shí)間戳不能保證嚴(yán)格意義的一致性，所以在某些特定因素下，有可能存在鎖串的情況。要適度的機(jī)制，可以承受小概率的事件產(chǎn)生。
3：只對(duì)關(guān)鍵處理節(jié)點(diǎn)加鎖，良好的習(xí)慣是，把相關(guān)的資源準(zhǔn)備好，比如連接數(shù)據(jù)庫后，調(diào)用加鎖機(jī)制獲取鎖，直接進(jìn)行操作，然后釋放，盡量減少持有鎖的時(shí)間。
4：在持有鎖期間要不要CHECK鎖，如果需要嚴(yán)格依賴鎖的狀態(tài)，最好在關(guān)鍵步驟中做鎖的CHECK檢查機(jī)制，但是根據(jù)我們的測(cè)試發(fā)現(xiàn)，在大并發(fā)時(shí)，每一次CHECK鎖操作，都要消耗掉幾個(gè)毫秒，而我們的整個(gè)持鎖處理邏輯才不到10毫秒，玩客沒有選擇做鎖的檢查。
5：sleep學(xué)問，為了減少對(duì)Redis的壓力，獲取鎖嘗試時(shí)，循環(huán)之間一定要做sleep操作。但是sleep時(shí)間是多少是門學(xué)問。需要根據(jù)自己的Redis的QPS，加上持鎖處理時(shí)間等進(jìn)行合理計(jì)算。
6：至于為什么不使用Redis的muti，expire，watch等機(jī)制，可以查一參考資料，找下原因。

鎖測(cè)試數(shù)據(jù)

未使用sleep
第一種，鎖重試時(shí)未做sleep。單次請(qǐng)求，加鎖，執(zhí)行，解鎖時(shí)間

可以看到加鎖和解鎖時(shí)間都很快，當(dāng)我們使用

ab -n1000 -c100 'http://sandbox6.wanke.etao.com/test/test_sequence.php?tbpm=t'
AB 并發(fā)100累計(jì)1000次請(qǐng)求，對(duì)這個(gè)方法進(jìn)行壓測(cè)時(shí)。

我們會(huì)發(fā)現(xiàn)，獲取鎖的時(shí)間變成，同時(shí)持有鎖后，執(zhí)行時(shí)間也變成，而delete鎖的時(shí)間，將近10ms時(shí)間，為什么會(huì)這樣？
1：持有鎖后，我們的執(zhí)行邏輯中包含了再次調(diào)用Redis操作，在大并發(fā)情況下，Redis執(zhí)行明顯變慢。
2：鎖的刪除時(shí)間變長(zhǎng)，從之前的0.2ms，變成9.8ms，性能下降近50倍。
在這種情況下，我們壓測(cè)的QPS為49，最終發(fā)現(xiàn)QPS和壓測(cè)總量有關(guān)，當(dāng)我們并發(fā)100總共100次請(qǐng)求時(shí)，QPS得到110多。當(dāng)我們使用sleep時(shí)

使用Sleep時(shí)

單次執(zhí)行請(qǐng)求時(shí)

我們看到，和不使用sleep機(jī)制時(shí)，性能相當(dāng)。當(dāng)時(shí)用相同的壓測(cè)條件進(jìn)行壓縮時(shí)

獲取鎖的時(shí)間明顯變長(zhǎng)，而鎖的釋放時(shí)間明顯變短，僅是不采用sleep機(jī)制的一半。當(dāng)然執(zhí)行時(shí)間變成就是因?yàn)椋覀冊(cè)趫?zhí)行過程中，重新創(chuàng)建數(shù)據(jù)庫連接，導(dǎo)致時(shí)間變長(zhǎng)的。同時(shí)我們可以對(duì)比下Redis的命令執(zhí)行壓力情況

上圖中細(xì)高部分是為未采用sleep機(jī)制的時(shí)的壓測(cè)圖，矮胖部分為采用sleep機(jī)制的壓測(cè)圖，通上圖看到壓力減少50%左右，當(dāng)然，sleep這種方式還有個(gè)缺點(diǎn)QPS下降明顯，在我們的壓測(cè)條件下，僅為35，并且有部分請(qǐng)求出現(xiàn)超時(shí)情況。不過綜合各種情況后，我們還是決定采用sleep機(jī)制，主要是為了防止在大并發(fā)情況下把Redis壓垮，很不行，我們之前碰到過，所以肯定會(huì)采用sleep機(jī)制。

參考資料

http://www.worlduc.com/FileSystem/18/2518/590664/9f63555e6079482f831c8ab1dcb8c19c.pdf
http://redis.io/commands/setnx
http://www.tkk7.com/caojianhua/archive/2013/01/28/394847.html

版權(quán)聲明：本文為博主原創(chuàng)文章，未經(jīng)博主允許不得轉(zhuǎn)載。

posted on 2015-08-31 15:22 小馬歌閱讀(285) 評(píng)論(0) 編輯收藏所屬分類: 分布式

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 如何系統(tǒng)性地學(xué)習(xí)分布式系統(tǒng)？[轉(zhuǎn)] 怎樣打造一個(gè)分布式數(shù)據(jù)庫 12306火車票訂票系統(tǒng)的伸縮擴(kuò)展 Kubernetes系統(tǒng)架構(gòu)簡(jiǎn)介阿里巴巴分布式服務(wù)框架 Dubbo 團(tuán)隊(duì)成員梁飛專訪快的打車架構(gòu)實(shí)踐解決dubbo問題：forbid consumer 【轉(zhuǎn)】 Dubbo學(xué)習(xí)過程、使用經(jīng)驗(yàn)分享及實(shí)現(xiàn)原理簡(jiǎn)單介紹解讀2015之大數(shù)據(jù)篇：大數(shù)據(jù)的黃金時(shí)代實(shí)施微服務(wù)，我們需要哪些基礎(chǔ)框架？【轉(zhuǎn)】

My Links

Blog Stats

留言簿(26)

隨筆分類

文章分類

文章檔案

博客連接

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

基于Redis實(shí)現(xiàn)分布式鎖[轉(zhuǎn)]