大廠面試題詳解：如何用Redis實現分布式鎖？

說壹道常見面試題：

壹個很簡單的答案就是去使用 Redission 客戶端。Redission 中的鎖方案就是 Redis 分布式鎖得比較完美的詳細方案。

那麽，Redission 中的鎖方案為什麽會比較完美呢？

正好，我用 Redis 做分布式鎖經驗十分豐富，在實際工作中，也探索過許多種使用 Redis 做分布式鎖的方案，經過了無數血淚教訓。

所以，在談及 Redission 鎖為什麽比較完美之前，先給大家看看我曾經使用 Redis 做分布式鎖是遇到過的問題。

我曾經用 Redis 做分布式鎖是想去解決壹個用戶搶優惠券的問題。這個業務需求是這樣的：當用戶領完壹張優惠券後，優惠券的數量必須相應減壹，如果優惠券搶光了，就不允許用戶再搶了。

在實現時，先從數據庫中先讀出優惠券的數量進行判斷，當優惠券大於 0，就進行允許領取優惠券，然後，再將優惠券數量減壹後，寫回數據庫。

當時由於請求數量比較多，所以，我們使用了三臺服務器去做分流。

這個時候會出現壹個問題：

如果其中壹臺服務器上的 A 應用獲取到了優惠券的數量之後，由於處理相關業務邏輯，未及時更新數據庫的優惠券數量；在 A 應用處理業務邏輯的時候，另壹臺服務器上的 B 應用更新了優惠券數量。那麽，等 A 應用去更新數據庫中優惠券數量時，就會把 B 應用更新的優惠券數量覆蓋掉。

看到這裏，可能有人比較奇怪，為什麽這裏不直接使用 SQL：

原因是這樣做，在沒有分布式鎖的協調下，優惠券數量可能直接會出現負數。因為當前優惠券數量為 1 的時候，如果兩個用戶通過兩臺服務器同時發起搶優惠券的請求，都滿足優惠券大於 0 每個條件，然後都執行這條 SQL 說了句，結果優惠券數量直接變成 -1 了。

還有人說可以用樂觀鎖，比如使用如下 SQL:

這種方式就在壹定幾率下，很可能出現數據壹直更新不上，導致長時間重試的情況。

所以，經過綜合考慮，我們就采用了 Redis 分布式鎖，通過互斥的方式，以防止多個客戶端同時更新優惠券數量的方案。

當時，我們首先想到的就是使用 Redis 的 setnx 命令，setnx 命令其實就是 set if not exists 的簡寫。

當 key 設置值成功後，則返回 1，否則就返回 0。所以，這裏 setnx 設置成功可以表示成獲取到鎖，如果失敗，則說明已經有鎖，可以被視作獲取鎖失敗。

如果想要釋放鎖，執行任務 del 指令，把 key 刪除即可。

利用這個特性，我們就可以讓系統在執行優惠券邏輯之前，先去 Redis 中執行 setnx 指令。再根據指令執行結果，去判斷是否獲取到鎖。如果獲取到了，就繼續執行業務，執行完再使用 del 指令去釋放鎖。如果沒有獲取到，就等待壹定時間，重新再去獲取鎖。

乍壹看，這壹切沒什麽問題，使用 setnx 指令確實起到了想要的互斥效果。

但是，這是建立在所有運行環境都是正常的情況下的。壹旦運行環境出現了異常，問題就出現了。

想壹下，持有鎖的應用突然崩潰了，或者所在的服務器宕機了，會出現什麽情況？

這會造成死鎖——持有鎖的應用無法釋放鎖，其他應用根本也沒有機會再去獲取鎖了。這會造成巨大的線上事故，我們要改進方案，解決這個問題。

怎麽解決呢？咱們可以看到，造成死鎖的根源是，壹旦持有鎖的應用出現問題，就不會去釋放鎖。從這個方向思考，可以在 Redis 上給 key 壹個過期時間。

這樣的話，即使出現問題，key 也會在壹段時間後釋放，是不是就解決了這個問題呢？實際上，大家也確實是這麽做的。

不過，由於 setnx 這個指令本身無法設置超時時間，所以壹般會采用兩種辦法來做這件事：

1、采用 lua 腳本，在使用 setnx 指令之後，再使用 expire 命令去給 key 設置過期時間。

2、直接使用 set(key,value,NX,EX,timeout) 指令，同時設置鎖和超時時間。

以上兩種方法，使用哪種方式都可以。

釋放鎖的腳本兩種方式都壹樣，直接調用 Redis 的 del 指令即可。

到目前為止，我們的鎖既起到了互斥效果，又不會因為某些持有鎖的系統出現問題，導致死鎖了。這樣就完美了嗎？

假設有這樣壹種情況，如果壹個持有鎖的應用，其持有的時間超過了我們設定的超時時間會怎樣呢？會出現兩種情況：

出現第壹種情況比較正常。因為妳畢竟執行任務超時了，key 被正常清除也是符合邏輯的。

但是最可怕的是第二種情況，發現設置的 key 還存在。這說明什麽？說明當前存在的 key，是另外的應用設置的。

這時候如果持有鎖超時的應用調用 del 指令去刪除鎖時，就會把別人設置的鎖誤刪除，這會直接導致系統業務出現問題。

所以，為了解決這個問題，我們需要繼續對 Redis 腳本進行改動……毀滅吧，累了……

首先，我們要讓應用在獲取鎖的時候，去設置壹個只有應用自己知道的獨壹無二的值。

通過這個唯壹值，系統在釋放鎖的時候，就能識別出這鎖是不是自己設置的。如果是自己設置的，就釋放鎖，也就是刪除 key；如果不是，則什麽都不做。

腳本如下：

或者

這裏，ARGV[1] 是壹個可傳入的參數變量，可以傳入唯壹值。比如壹個只有自己知道的 UUID 的值，或者通過雪球算法，生成只有自己持有的唯壹 ID。

釋放鎖的腳本改成這樣：

可以看到，從業務角度，無論如何，我們的分布式鎖已經可以滿足真正的業務需求了。能互斥，不死鎖，不會誤刪除別人的鎖，只有自己上的鎖，自己可以釋放。

壹切都是那麽美好！！！

可惜，還有個隱患，我們並未排除。這個隱患就是 Redis 自身。

要知道，lua 腳本都是用在 Redis 的單例上的。壹旦 Redis 本身出現了問題，我們的分布式鎖就沒法用了，分布式鎖沒法用，對業務的正常運行會造成重大影響，這是我們無法接受的。

所以，我們需要把 Redis 搞成高可用的。壹般來講，解決 Redis 高可用的問題，都是使用主從集群。

但是搞主從集群，又會引入新的問題。主要問題在於，Redis 的主從數據同步有延遲。這種延遲會產生壹個邊界條件：當主機上的 Redis 已經被人建好了鎖，但是鎖數據還未同步到從機時，主機宕了。隨後，從機提升為主機，此時從機上是沒有以前主機設置好的鎖數據的——鎖丟了……丟了……了……

到這裏，終於可以介紹 Redission（開源 Redis 客戶端）了，我們來看看它怎麽是實現 Redis 分布式鎖的。

Redission 實現分布式鎖的思想很簡單，無論是主從集群還是 Redis Cluster 集群，它會對集群中的每個 Redis，挨個去執行設置 Redis 鎖的腳本，也就是集群中的每個 Redis 都會包含設置好的鎖數據。

我們通過壹個例子來介紹壹下。

假設 Redis 集群有 5 臺機器，同時根據評估，鎖的超時時間設置成 10 秒比較合適。

第 1 步，咱們先算出集群總的等待時間，集群總的等待時間是 5 秒（鎖的超時時間 10 秒 / 2）。

第 2 步，用 5 秒除以 5 臺機器數量，結果是 1 秒。這個 1 秒是連接每臺 Redis 可接受的等待時間。

第 3 步，依次連接 5 臺 Redis，並執行 lua 腳本設置鎖，然後再做判斷：

再額外多說壹句，在很多業務邏輯裏，其實對鎖的超時時間是沒有需求的。

比如，淩晨批量執行處理的任務，可能需要分布式鎖保證任務不會被重復執行。此時，任務要執行多長時間是不明確的。如果設置分布式鎖的超時時間在這裏，並沒有太大意義。但是，不設置超時時間，又會引發死鎖問題。

所以，解決這種問題的通用辦法是，每個持有鎖的客戶端都啟動壹個後臺線程，通過執行特定的 lua 腳本，去不斷地刷新 Redis 中的 key 超時時間，使得在任務執行完成前，key 不會被清除掉。

腳本如下：

其中，ARGV[1] 是可傳入的參數變量，表示持有鎖的系統的唯壹值，也就是只有持有鎖的客戶端才能刷新 key 的超時時間。

到此為止，壹個完整的分布式鎖才算實現完畢。總結實現方案如下：

這個分布式鎖滿足如下四個條件：

當然，在 Redission 中的腳本，為了保證鎖的可重入，又對 lua 腳本做了壹定的修改，現在把完整的 lua 腳本貼在下面。

獲取鎖的 lua 腳本：

對應的刷新鎖超時時間的腳本：

對應的釋放鎖的腳本：

到現在為止，使用 Redis 作為分布式鎖的詳細方案就寫完了。

我既寫了壹步壹坑的坎坷經歷，也寫明了各個問題和解決問題的細節，希望大家看完能有所收獲。

最後再給大家提個醒，使用 Redis 集群做分布式鎖，有壹定的爭議性，還需要大家在實際用的時候，根據現實情況，做出更好的選擇和取舍。

原文 blogs.com/siyuanwai/p/16011836.html