

互聯網時代,服務器機房可謂心臟,大型機房出故障是小概率事件。但即便如此,還是可能出現自然災害、斷電、光纜被挖斷等黑天鵝事件。如果沒有完善的容災系統,不能及時恢復,就會出現用戶信息丟失、資金損失的情況,后果不堪設想。
9 月 20 日,杭州云棲大會ATEC主論壇現場上演了一場特別的技術秀。螞蟻金服副CTO胡喜現場模擬挖斷支付寶近一半服務器的光纜。結果只過了 26 秒,模擬環境中的支付寶就完全恢復了正常。
這是由支付寶工程師策劃的一次特別技術演練,他們基于支付寶的真實機房,在兩個城市各單獨搭建了兩個模擬機房,以測試當兩個機房同時下線后的系統穩定性。
螞蟻金服副CTO胡喜解釋,這次是演習。而在真實環境下,如果支付寶部署在兩個城市的兩個機房同時出問題,跑在這兩個機房上的支付寶賬戶恢復正常的速度是分鐘級。
據了解,這一機房架構叫“三地五中心”,即在三座城市部署五個機房,一旦其中一個或兩個機房發生故障,支付寶的底層技術系統會將故障城市的流量全部切換到運行正常的機房,并且能做到數據保持一致且零丟失。
目前互聯網和金融科技行業普遍采用的是“兩地三中心”部署架構,即在一個城市設兩個機房,在另一個城市設一個冷備機房。
胡喜強調,這個架構,絕不僅僅是多設立了兩個機房那么簡單,它非??简炓患夜痉植际郊軜?、數據庫、中間件及相關金融核心技術的能力。而這正是支付寶創立前十年修煉技術內功的結果?!爸Ц秾毜募夹g目標之一就是保證金融級別的系統穩定和安全能力?!?
曾有行業人士做過概率計算,兩個城市多個機房同時故障的概率極低,基本不會發生。而即便發生了,現場的演習也展示出支付寶強大的容災能力。
胡喜在現場和大家開起了玩笑:“這次演練,告訴了大家一個好消息,一個壞消息。好消息是,支付寶很安全,很穩定,至少要陪大家再過 102 年,壞消息是,不管剪多少光纜,花唄還是要還的?!?