整体负责了 2015-2018 年的双十一大促-蓬莱新闻
点击关闭

双十一团队-整体负责了 2015-2018 年的双十一大促

  • 时间:

中国火星天团亮相

雙十一當天,對於很多技術團隊而言都是一個不眠之夜。能睡幾個小時通常不是由技術同學決定,而是看業務情況,系統負載情況,普智說雙十一是團隊作戰,不是單兵攻堅,睡眠一般還能得到保證。

後來,OceanBase 團隊獲得了 2015 年螞蟻金服的 CEO 大獎,這也是第一次由技術團隊拿到這個獎。彭蕾希望借這個獎鼓勵那些能夠沉下心來、扎紮實實地把一項技術做好做紮實的技術人們。

如果以後不負責大促了,想寫個程序來測試幾個主要電商平台的性能指標。

我們只能抓狂地在邊上出主意,實際 bug 排查和修復我們都沒法幫上忙,哪怕是代碼 review 我們也做不了,這是我這麼多年雙十一過來最沒有底氣的一年。

寫在最後:致敬技術人與這個時代

2014 年那次雙十一,其實跟我自己生活還稍微有點關係。我女兒是 11 月 7 號生的,我記得印象特別深,本來預產期應該是在雙十一之後,結果提前出生了。當時因為蘇寧在南京,7 號打電話說生了以後,8 號又飛回北京看了孩子,然後繼續回來組織雙十一的大促。回到南京后收到了團隊成員很多的祝福,帶着女兒出生的幸福繼續投入雙十一的保障準備中。

對於身處其中的消費者而言,雙十一、618 等大促意味着全年最實惠的價格,最狂歡的購物體驗,屢創新高的消費金額。但對於背後的技術人員來說,這是一次技術實力的考驗,也是一次超大壓力的辛苦旅程。在這個過程中,哪怕稍有差池,系統故障,流量告警,宕機,影響到的都是以億計的消費者,程序員們太不容易。

(以上內容來自此前 InfoQ 對陽振坤的採訪)

高光時刻似乎沒有特別的印象,研發人員在大促的使命就是為業務保駕護航。使得系統平穩運行,是我們應該做的事情。

OceanBase 遇上了阿里巴巴集團去 IOE 的天時地利,但人和卻來得比較遲。直到 2013 年,支付寶也開始去 IOE 以後,陽振坤向魯肅毛遂自薦了 OceanBase 的解決方案,得到了攻堅 2014 年雙十一的機會。

2012 年以後,主要解決的就是業務問題:超賣、重複下單、優惠複雜性,這些嚴重影響消費者和商家體驗的難題是技術團隊需要逐個突破解決的。2016 年,開始做系統吞吐量的提升工作,讓業務快速發展的時候,保證服務器數量,到了今年全面上雲成了最重要的工作。

雙十一背後,少不了程序員們的辛勤付出。

讓我們致敬技術人默默做出的貢獻,真正讓技術普惠到了商業的發展。

在當時的情況下,技術團隊不僅需要緊急開發程序重新計算髮獎,同時還需要修復系統故障確保下一次開獎能夠保證準確不出錯。

「從未想過放棄。無論 618 還是 11.11,都是工作的一部分。」

單機數據庫已經走到了盡頭,下一步只能走向分佈式。2010 年,OceanBase 項目啟動。

無論 618 還是 11.11,都是工作的一部分。

「空吼無益,實幹維穩!」如果說雙十一對於技術人員來說是一場沉重的考驗,那運維人員也許是最累的那些人之一。

現在回想起來還心有餘悸。當業務現實流量大於預估容量時,我們從內心是希望系統能處理每一個請求,不希望讓用戶出現不可訪問的場景;但實現場景下,我們必須拒絕這種幻想。業務限流是應對超出預估流量合理處理方案。

2014 年雙十一后,喬新亮就加入了蘇寧,經歷了歷屆雙十一的大促活動,整體負責了 2015-2018 年的雙十一大促,不過逐步從一線指揮轉向了幕後指揮,值得自豪的是從 2014 年開始,每年都是一個穩定成功的雙十一。

陽振坤是支付寶背後自研分佈式數據庫 OceanBase 的負責人。

「如果等會兒出問題,我就從這跳下去。」

通過每次壓測檢查去發現每條鏈路的問題,不斷核對各個接口量和響應時間是否符合預期。如果不滿足,就針對該節點進行優化或擴容;通過一次次加量壓測,確保服務可靠穩定;如果按 100% 預估容量壓測通過後,我們還會組織 120%,140% 的流量壓測,確保流量大於預期情況下業務系統限流是有效的。

如果以後不做雙十一了,希望能和家人一起躺在被窩裡 shopping。

讓我們致敬這個時代,能讓中國技術持續生根發芽,長成參天大樹。

每年的雙十一、618 等電商大促,InfoQ 都有從技術的角度去策劃專題內容。雙十一從 2009 年到現在,剛好也走過了第 11 個年頭,交易規模也從第一年的 0.5 億迅猛增長到了 2018 年的 2135 億。世界範圍內也很難找到這樣高併發、高複雜度的電商場景,背後支撐的技術能力也從最開始的捉襟見肘、拆東牆補西牆到現在的遊刃有餘,吃着火鍋唱着歌就把洪峰般的瞬時流量給完美承接下來。這背後,少不了程序員們的辛勤付出。t

不同於其他技術團隊在雙十一前喊出的各種口號,普智覺得喊了狠話以後精神壓力反而會更大,「空吼無益,實幹維穩!」

2009 年,第一次雙十一大促開始,當時誰都沒想到電商大促會這麼成功,正如也沒多少人預見當年誕生的 Redis、MongoDB 等非關係型數據庫能在業界掀起一場 NoSQL 革命一樣。加入阿里之後,陽振坤發現無論對淘寶還是支付寶,關係數據庫都扮演着十分關鍵的角色,在使用上根本不可能擺脫。但已有的數據庫,無論是商業數據庫還是開源數據庫,都有非常多的局限,遠遠無法滿足如淘寶、支付寶這樣的互聯網和金融業務對高擴展、高併發、高可用和低成本的需求。

技術團隊為此做了各種攻防和破壞性演練,在考驗系統抗風險能力的同時,鍛煉組織的協作能力,以及項目成員在高壓力情況下的緊急處理故障的應變能力。在全鏈路驗收的時候,加入了對雲機房的攻擊演練,通過這次演練還真發現了不少較嚴重的問題,可以針對性地做預案、解決。

我們團隊是運維保障部門,雙十一貌似是躲不過的。如果不負責雙十一了,除非換一個工種。當一個產品如何?讓業務開發抓狂一下。

當時,蘇寧在 818 過後的 8 月底就啟動了 2014 年雙十一的籌備。喬新亮一手組織,包括搭建準備雙十一的項目團隊,調集所有研發中心參与準備,分析雙十一有什麼風險,分析核心系統設計中影響高可用、影響業務連續性的設計,針對不能通過系統設計自動處理的部分,明確應急方案,響應機制。

2017 年雙十一,四虎遇到了一個難題。

過程中我會盡量抽空回家陪陪家人,來補充能量。雙 11 當天一般會睡 4 小時,當然我們期望沒有問題,可以好好的睡上 8 個小時。

後來發生的故事大家也都知道了,OceanBase 不僅走出了支付寶,走向了金融業界,也成了國產自研分佈式數據庫的佼佼者。可誰能知道,當初這個團隊數度面臨解散危機?如果不是雙十一獲得的巨大成功,也許 OceanBase 還在蟄伏中。

當時的他還在 IBM,蘇寧請他做顧問去帶領雙十一的技術團隊。2014 年的雙十一,是他最全面組織並下到一線組織、最沒有經驗的第一次雙十一。

在雙十一的籌備期,普智所在團隊的大部分人員作息時間仍舊根據公司日常上班時間走,只有在全鏈路壓測的時候會全體輪流 參与值班。

當晚 0 點高峰時發生部分業務容量不夠,服務器網卡被打爆的情況。當時我們團隊慌了神,做了對節點進行緊急擴容的決定,但擴容上去后發現新的節點又發現引爆其他的問題,反反覆復折騰了一天,用戶體驗也不太好。

2016 年,普智第二次參与雙十一大促活動,就遇上了滑鐵盧。

喬新亮認為類似的大促場景,一定要把設計做到足夠完善,才能應對高併發流量帶來的衝擊。技術負責人必須得有價值主張:第一,少出事故;第二,故障時間短;第三,故障影響小;第四,盡量用低的成本。與之對應的就是高可用、容量足、容錯強、要做變更、可視化、全生產鏈路壓測等等。

2013 年雙 11,獨立開發的第一個系統上線,服務訂單履約中心與物流 WMS 兩個業務,整體運行非常平穩,如同看着自己的孩子考試成績出色那樣開心。

今年是四虎第十一次參加雙十一。2009 年,四虎第一次參加雙十一,值班守交易的服務器。在此之後的每一年,他都深度參与了雙十一大促。2017 年開始的三年間,他開始參与雙十一的指揮層,作為負責雙 11 的技術團隊的業務研發線大隊長。

這些年來,親身經歷互聯網零售業務的高速發展以及相應技術領域的逐步成熟,應對大促高峰流量,越來越有信心。

這是劉海鋒在京東的第 7 個 11.11。參加工作十年後,劉海鋒已是京東技術副總裁、零售基礎架構負責人。

2014 與 2015 年,我負責的核心系統多了起來,也成為公司技術備戰的中堅力量,感覺壓力但也充滿責任感。

機器雖然比人力可靠,但也避免不了出錯的時候。

最終 2017 年雙十一在前台層面風平浪靜地度過了,但背後技術團隊的驚心動魄卻無人能知。

人很有意思,人必須是在壓力下,就是有挑戰的時候才會覺得印象深刻,沒有壓力沒有挑戰的時候覺得其實也就這樣吧。人生就是個旅程,經歷雙十一,讓自己更願意不斷接受挑戰,享受那種經歷極大挑戰然後又盡在掌控的感覺,還有那種和團隊慶祝成功的喜悅是難以形容的,一句話,一起扛過雙十一!

最終陽振坤並沒有跳下去。最初的計劃里,OceanBase 只會承接雙十一大促流量的 1%,剩下 99% 的流量由 Oracle 數據庫負責。但因為當時的 Oracle 數據庫支撐不了洶湧而來的巨大流量,最後 OceanBase 承接了 10% 的雙十一流量,十倍于最初計劃。

2014 年的雙十一,自己就帶領團隊建立了完整的雙十一保障體系,確保了自己負責的第一個雙十一就是一個成功的雙十一。不過從後續幾年的進一步深入準備看,也有運氣的成分。細節決定成敗,很多事故都是小概率事件,整個雙十一的保障就是要確保每個小概率的風險都在掌控中,不能有任何僥倖心理,後續每年的雙十一都在不斷完善體系,優化設計確保每個極低的風險都在掌控中。

2017 年晉陞為公司的技術 VP,整體帶領基礎架構部門,支撐各個在線業務的應用開發以及大促備戰。

2016 年,第一次作為一線負責人來協同整個公司的大促備戰。對架構與公司業務的關係有了更深的理解。

作為根正苗紅的雙十一親歷者,四虎表示 2012 年之前,阿里巴巴的系統設計是沒有考慮到能夠支撐上百倍的流量壓力的。所以系統如何做到高壓情況下不宕機是他們前幾年主要努力的方向。隨着全鏈路壓測技術的成熟,技術團隊可以很快定位系統水位短板,提升高壓下的突變應對能力。

今年雙十一是蘑菇街全面雲化后的第一次大促,對服務的穩定和性能挑戰非常大。為了應對本次雙十一,普智的團隊和業務同學一共組織了多達七次全鏈路壓測。

在喬新亮看來,歷屆雙十一沒有出現故障的原因除了運氣好,更多是因為事情做在了前面,大促保障,工作在平時,檢驗在大促。2014 年,是喬新亮組織的第一次雙十一,當成功度過以後,他長出了一口氣。

從前線開發到帶團隊一起攻堅大促,劉海鋒的心境發生了挺大的變化。

雙十一已經做了十一年,各種組織保障和流程都已經很完善,同學們也大部分都比較熟練。四虎說,最怕的就是大家看起來做的井井有條,但是實際上有很多漏過的事項。

2015 年 11 月 11 號當天,我們團隊負責的微服務註冊中心發生了故障,持續時間很長。而這個模塊是公司幾乎所有線上服務的強依賴。那一天,灰頭土臉。

雙十一未來只會越來越輕鬆。最終那些東西都會歸到基礎的雲平台去,都是成熟了的技術。

編者按:本文來自InfoQ(微信公眾號ID:infoqchina),作者 唐小智,記者 張曉楠、劉燕、趙鈺瑩,36氪經授權發佈。

劉海鋒說,這些年大促備戰,技術準備時間的整體趨勢是越來越短。這兩年基本上在國慶節過後開始正式啟動備戰工作,持續大約一個月的時間。這背後,既是大促團隊的業務熟練度達到了一個高的水平,同樣也是技術上的基礎設施等保障發展到了一個很高的水平,才能做到這樣的遊刃有餘。

一個人再有能力,還是需要平台的,需要這種機會去鍛煉實踐的。所以我覺得也借這個機會對老東家蘇寧表示一下感激,祝福老東家越來越好,也期盼環球易購能夠做得越來越好,希望兩家公司都能在雙十一大賣。

「雙十一,我家老二出生了。」2014 年,喬新亮以顧問身份參与蘇寧的雙十一籌備。

謹以此文,獻給這個時代下,向陽生長的各位技術人們。

解決時間只有 2 個小時。活動發獎系統是用 Python 寫的,但四虎帶領的技術團隊主開發語言是 Java。只能臨時拉集團熟悉 Python 的項目組同學火線救援。

輪流的目的是為了團隊的人通過壓測更加了解熟悉業務各個系統情況,能把日常工作互備起來。總體來說我們團隊的工作壓力還好,如果壓力大的話,我們會搞搞聚餐,樓下運動運動啥的。

喬新亮離開蘇寧以後去了環球易購,仍舊在籌備雙十一的主戰場上。

一個企業這種大促的成功,絕對要靠體系化的管理,而不是僅僅只依賴一線員工的責任心或者能力。

四虎雙十一籌備期間,每天早上 9 點到公司,晚上回家時間不定,大部分是在 0 點前後。跟平時來比早上來晚了,晚上回去也更晚了。因為平時會在 8:00 左右到公司,晚上在 20:00 左右回家。

他曾先後帶領團隊負責分佈式存儲、商品圖片服務、中間件平台、容器雲平台、CDN、數據可視化、各種數據庫系統、全鏈路壓測、統一數據中心調度等一系列技術基礎設施。

劉海鋒:左起第五位電商大促對於技術團隊而言有多累,不言而喻。縱覽業界,不乏因為太累、忽視了家人的感受而選擇離職的電商技術團隊同學。但劉海鋒表示,自己從未想過放棄。

當時雙十一活動中,主互動發獎出現中獎用戶和金額數據計算不一致的問題。如果把錯誤的金額發給了消費者,會讓辛辛苦苦參与了 20 多天前序活動的消費者拿不到應有的紅包,在雙十一這種全民參与的購物狂歡節下,這個 Bug 對於用戶體驗的損害有多大不敢想象。

2009 年到 2019 年,雙十一已經走到了十一年。中國互聯網也從 Web 2.0 到移動互聯網時代,再到 5G 時代。

普智,2015 年加入蘑菇街運維團隊,到今年為止已經參加五次雙十一。

大促開始前的凌晨,各個團隊都在自己的作戰室里熱火朝天地準備。當時任螞蟻金服董事長的彭蕾去了 OceanBase 團隊的作戰室,問大家:「有沒有信心?」陽振坤跟彭蕾開了個玩笑說:「你看我們窗子都已經打開了,如果等會出問題,我們就準備從這跳下去。」

「這是我這麼多年雙十一過來最沒有底氣的一年。」

今日关键词:河北车辆连环相撞