mysql高可用方案MHA介紹

概述

MHA是一位日本MySQL大牛用Perl寫的一套MySQL故障切換方案，來保證數(shù)據(jù)庫系統(tǒng)的高可用.在宕機(jī)的時間內(nèi)（通常10—30秒內(nèi)），完成故障切換，部署MHA，可避免主從一致性問題，節(jié)約購買新服務(wù)器的費用，不影響服務(wù)器性能，易安裝，不改變現(xiàn)有部署。

還支持在線切換，從當(dāng)前運行master切換到一個新的master上面，只需要很短的時間（0.5-2秒內(nèi)），此時僅僅阻塞寫操作，并不影響讀操作，便于主機(jī)硬件維護(hù)。

在有高可用，數(shù)據(jù)一致性要求的系統(tǒng)上，MHA 提供了有用的功能，幾乎無間斷的滿足維護(hù)需要。

優(yōu)點

1 master自動監(jiān)控和故障轉(zhuǎn)移

在當(dāng)前已存在的主從復(fù)制環(huán)境中，MHA可以監(jiān)控master主機(jī)故障，并且故障自動轉(zhuǎn)移。

即使有一些slave沒有接受新的relay log events，MHA也會從最新的slave自動識別差異的relay log events，并apply差異的event到其他slaves。因此所有的slave都是一致的。MHA秒級別故障轉(zhuǎn)移（9-12秒監(jiān)測到主機(jī)故障，任選7秒鐘關(guān)閉電源主機(jī)避免腦裂，接下來apply差異relay logs，注冊到新的master，通常需要時間10-30秒即total downtime）。另外，在配置文件里可以配置一個slave優(yōu)先成為master。因為MHA修復(fù)了slave之間的一致性，dba就不用去處理一致性問題。

當(dāng)遷移新的master之后，并行恢復(fù)其他slave。即使有成千上萬的slave,也不會影響恢復(fù)master時間，slave也很快完成。

DeNA公司在150+主從環(huán)境中用MHA。當(dāng)其中一個master崩潰，MHA4秒完成故障轉(zhuǎn)移，這是主動/被動集群解決方案無法完成的。

2 互動(手動)master故障轉(zhuǎn)移

MHA可以用來只做故障轉(zhuǎn)移，而不監(jiān)測master，MHA只作為故障轉(zhuǎn)移的交互。

3 非交互式故障轉(zhuǎn)移

非交互式的故障轉(zhuǎn)移也提供（不監(jiān)控master，自動故障轉(zhuǎn)移）。這個特性很有用，特別是你已經(jīng)安裝了其他軟件監(jiān)控master。比如，用Pacemaker(Heartbeat)監(jiān)測master故障和vip接管，用MHA故障轉(zhuǎn)移和slave提升。

4 在線切換master到不同主機(jī)

在很多情況下，有必要將master轉(zhuǎn)移到其他主機(jī)上（如替換raid控制器，提升master機(jī)器硬件等等）。這并不是master崩潰，但是計劃維護(hù)必須去做。計劃維護(hù)導(dǎo)致downtime，必須盡可能快的恢復(fù)。快速的master切換和優(yōu)雅的阻塞寫操作是必需的，MHA提供了這種方式。優(yōu)雅的master切換， 0.5-2秒內(nèi)阻塞寫操作。在很多情況下0.5-2秒的downtime是可以接受的，并且即使不在計劃維護(hù)窗口。這意味著當(dāng)需要更換更快機(jī)器，升級高版本時，dba可以很容易采取動作。

5 master crash不會導(dǎo)致主從數(shù)據(jù)不一致性

當(dāng)master crash后，MHA自動識別slave間relay logevents的不同，然后應(yīng)用與不同的slave，最終所有slave都同步。結(jié)合通過半同步一起使用，幾乎沒有任何數(shù)據(jù)丟失。

其他高可用方案

6 MHA部署不影響當(dāng)前環(huán)境設(shè)置

MHA最重要的一個設(shè)計理念就是盡可能使用簡單。使用與5.0+以上主從環(huán)境，其他HA方案需要改變mysql部署設(shè)置，MHA不會讓dba做這些部署配置，同步和半同步環(huán)境都可以用。啟動/停止/升級/降級/安裝/卸載 MHA都不用改變mysql主從（如啟動/停止）。

當(dāng)你需要升級MHA到新版本時，不需要停止mysql，僅僅更新HMA版本，然后重新啟動MHAmanger即可。

MHA 支持包含5.0/5/1/5.5(應(yīng)該也支持5.6，翻譯文檔時MHA開發(fā)者沒更新對于5.6版本)。有些HA方案要求特定的mysql版本（如mysqlcluster，mysql with global transaction id 等）,而且你可能不想僅僅為了MasterHA而遷移應(yīng)用。很多情況下，公司已經(jīng)部署了許多傳統(tǒng)的mysql應(yīng)用，開發(fā)或dba不想花太多時間遷移到不同的存儲引擎或新的特性（newer bleeding edge distributions 不知道這個是否該這么翻譯）。

7 不增加服務(wù)器費用

MHA 包含MHA Manager和MHA node。MHA node運行在每臺mysql服務(wù)器上，Manager可以單獨部署一臺機(jī)器，監(jiān)控100+以上master，總服務(wù)器數(shù)量不會有太大增加。需要注意的是Manager也可以運行在slaves中的一臺機(jī)器上。

8 性能無影響

當(dāng)監(jiān)控master，MHA只是幾秒鐘（默認(rèn)3秒）發(fā)送ping包，不發(fā)送大的查詢。主從復(fù)制性能不受影響

9 適用任何存儲引擎

Mysql不僅僅適用于事務(wù)安全的innodb引擎，在主從中適用的引擎，MHA都可以適用。即使用遺留環(huán)境的mysiam引擎，不進(jìn)行遷移，也可以用MHA。

與其他HA方案比較

Doing everything manually

Mysql replication 是同步或半同步。當(dāng)master崩潰時，很有可能一些slave還沒有接受最新的relay log events，這意味著每一個slave都相互處在不同的狀態(tài)。人為修復(fù)一致性問題顯得不再平凡。沒有一致性問題，主從也可能不會啟動（如duplicate key error）。花費1個多小時重新啟動主從復(fù)制顯得不同尋常。

Single master and single slave

在單一主從情況下，一些slave 落后與其他slave的情況將不會發(fā)生。其中一個master崩潰，可以輕松的讓應(yīng)用轉(zhuǎn)移到一個新的master上面，提供對外服務(wù)，故障遷移很簡單。

Master, one candidate master, and multiple slaves雙主多從

雙主多從的架構(gòu)也很常見。主master掛掉，備用master將接替主master提供服務(wù)。某些情況配置為多主架構(gòu)。

M(RW)-----M2(R) M(RW), promoted from M2

| |

+----+----+ --(master crash)--> +-x--+--x-+

S(R) S2(R) S(?) S(?)

(Fromwhich position should S restart replication?)

但是這并不作為master故障轉(zhuǎn)移方案。當(dāng)前master掛掉，剩余slave不一定接受全部relay log events，修復(fù)數(shù)據(jù)一致性還是問題。

這種架構(gòu)使用廣泛，但是不是所有人都能深刻理解上述問題。當(dāng)前master掛掉，slave變得不統(tǒng)一或者slave不能從新的master復(fù)制數(shù)據(jù)。

也許雙master，其中一個master只讀，每個master都至少有一個slave也許可能解決問題。

M(RW)--M2(R)

| |

S(R) S2(R)

Pacemaker + DRBD

Pecemaker(Heartbeat)+DRBD+Mysql是一個通用方案。但是這個方案也有以下問題

1 費用問題，特別是跑大量主從環(huán)境。Pecemaker+DRBD是主動/被動的解決方案，因此需要一臺被動服務(wù)器對外不提供任何應(yīng)用服務(wù)。基本的需要四臺mysql服務(wù)器，one active master，one passive master，two slaves。

2 宕機(jī)時間(downtime)。Pacemaker+DRBD是主備集群，主master掛掉，備用master啟用。這可能花費長的時間，特別是沒有用innodb plugin。即使用innodb plugin，花費幾分鐘開始在備用master上接受連接也不尋常。另外，因為備用master上數(shù)據(jù)/文件緩存是空的，恢復(fù)時間，熱身(填充數(shù)據(jù)到data buffer pool)花費不可忽視的時間。實踐中，需要一臺或更多slave提供足夠的讀服務(wù)。在熱身時間內(nèi)，空緩存導(dǎo)致寫性能降低

3 寫問題下降或一致性問題。為了讓主動/被動集群真正的工作，每次提交(commit)后，必須刷新事務(wù)日志(binary log和innodb log)，也就是必須設(shè)置innodb-flush-log-at-trx-commit=1,sync-binlog=1。設(shè)置sync-binlog=1會降低寫性能，因為fsync()函數(shù)被序列化(sync-binlog=1，group commit失效)。大部分案例中，不設(shè)置sync-binlog=1.如果沒有設(shè)置sync-binlog=1，活動master crash，新的master(先前被動服務(wù)器)可能會丟失一些已經(jīng)發(fā)送到slave的binary log events。假如 master 掛掉，slave A接受到mysqld-bin.000123,位置1500。binlog data刷新到硬盤的位置在1000，那么新的master數(shù)據(jù)也只能mysqld-bin.000123的1000處，然后在啟動時創(chuàng)建一個新的binary log mysqld-bin.000124。如果發(fā)生這種情況，slave A不能繼續(xù)復(fù)制，因為新的master 沒有mysqld-bin.000123位置1500.

4 復(fù)雜。對多數(shù)人來說，安裝/初始化pacemake和DRBD不是容易的事情。相對于其他案例，初始化DRBD需要重新創(chuàng)建系統(tǒng)分區(qū)也不容易。要求dba在DRBD和linux內(nèi)核層有足夠的技能。如果dba執(zhí)行了一個錯誤命令（如執(zhí)行drbdadm–overwrite-data-of-peer primary 在被動節(jié)點），那么將會損壞活動的數(shù)據(jù)。重要的是另外一旦硬盤io層出現(xiàn)問題，多數(shù)dba處理這種問題不是容易的。

MySQL Cluster

Mysql cluster是真正的高可用解決方案，但是必須得用NDB存儲引擎。如果你用innodb，將不能發(fā)揮mysql cluster集群優(yōu)勢。

Semi-Synchronous Replication

半同步復(fù)制大大降低了binlog event僅僅存在于崩潰master上的這種風(fēng)險。這非常有用的能避免數(shù)據(jù)丟失。但是半同步不能解決所有一致性問題，只能保證一個（不是所有）slave接受到master端的commit的binlog events，其他slave也許還沒有接受全部的binlog events。不能apply不同的binlog events 從新的slave到其他slave上，也不能保證相互一致性

Global Transaction ID

GlobalTransaction ID所要達(dá)到的目的跟MHA相同，但它覆蓋更多。MHA只是兩級復(fù)制，但是global transaction id覆蓋任何級別的復(fù)制環(huán)境，即使第兩級復(fù)制失敗，dba也能覆蓋第三級。Check Google'sglobal transaction id project for details。

posted on 2014-08-05 13:45 小馬歌閱讀(294) 評論(0) 編輯收藏所屬分類: db tools

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: MySQL加鎖分析【轉(zhuǎn)】 MySQL 小心使用 replace into【轉(zhuǎn)】 MySQL 開發(fā)實踐 8 問，你能 hold 住幾個？【轉(zhuǎn)】推薦幾本學(xué)習(xí)MySQL的好書【轉(zhuǎn)】學(xué)習(xí)Cassandra資料的一些整理【轉(zhuǎn)】一篇文章，掌握所有開源數(shù)據(jù)庫的現(xiàn)狀為什么 Uber 工程師將 Postgres 數(shù)據(jù)庫換成 MySQL？怎樣打造一個分布式數(shù)據(jù)庫 Mac上安裝MySQL Spring加Mybatis實現(xiàn)MySQL數(shù)據(jù)庫主從讀寫分離

My Links

Blog Stats

留言簿(26)

隨筆分類

文章分類

文章檔案

博客連接

搜索

最新評論

閱讀排行榜

評論排行榜

mysql高可用方案MHA介紹