敬畏之心

2015年1月,我第一次見到程立,當時他在黃龍時代廣場B座12層一間朝南的辦公室裡辦公。一年之後,這個辦公室的主人已經變成了老苗,程立則搬到了離此不遠的黃龍國際中心。2016年1月,我再次見到程立。那天,他上身穿著一件Play牌的灰色V領針織衫,下身穿著一條藍色牛仔褲,在辦公室沙發前的茶几上,擺著一套茶具和各色小茶壺。

在這次採訪之前,我聽到了很多關於他的「江湖傳聞」。比如,程立在和同事討論問題時,會一邊寫毛筆字一邊聽,經常是同事講完,他腦子裡的對策就想出來了。有人說,幾乎所有的技術問題都會在程立那裡找到解決思路。

再次見面,我拿這些「江湖傳聞」和他求證。

程立認為,很多時候是「當局者迷」,一些同事喜歡找他討論問題,但是最懂這件事情的還是他們自己,很多時候他只要聽就可以了。一些原本準備向他請教的問題,最後往往變成了業務人員自己討論的問題,而程立就在旁邊寫字,等字寫完了,找他的同事也討論出來結果了。

每當寫字時,他就特別平靜,頭腦處於一個「接收」的狀態。而如果站在人群中聽討論,他往往會迷失。因此儘管他在寫字,但也是在聽討論,稍微脫離一點,反而會聽得更加清楚。

在一次給湖畔大學的授課中,彭蕾特別提到,程立平時不太愛說話,別看他在開會的時候經常寫字,他的「天靈蓋」是打開的,始終在接收外部的信息,所以,程立很容易走進他人的世界,和周圍的人發生「連接」。[5]

正是出於這種賞識,彭蕾開始讓程立承擔更多責任。

2013年的一天,程立被叫到了彭蕾的辦公室。

「李靜明要回美國,由你來接任首席技術官怎麼樣?」彭蕾開門見山地問。

程立聽完後很猶豫:「我從來沒有領導過這麼大的團隊,而且,李靜明所表現出的領導氣質和做法我根本做不到。」

程立所說的李靜明,是當時支付寶的首席技術官,李靜明曾在Sun微系統、Unisys等跨國IT公司擔任技術總監、首席架構師等職務,在來支付寶之前,曾在阿里雲擔任副總裁。他作風強勢,為了工作的事經常和同事據理力爭,有時甚至拍桌子爭吵。目睹了李靜明領導風格的程立,對自己能否做一個首席技術官產生了很大的懷疑,因為李靜明的性格與他截然相反。

聽完程立的話,彭蕾沒有說太多,只是讓他再考慮考慮。

兩個星期後的一天,為了勸說程立接任螞蟻金服首席技術官,阿里巴巴集團首席技術官王堅找他聊天,但程立依然婉言謝絕。理由一樣,他還是與李靜明做比較,覺得自己還不具備領導這麼多人所需要的氣質。

王堅當然理解程立的想法,這位曾經的心理學教授,片刻思索之後說:「你永遠也成不了李靜明,但是你也一定會有自己解決問題的方式。」

這句話給了程立極大的信心,他慢慢覺得自己至少可以先試試看。

從2005年加入支付寶開始,程立在十幾年間崗位不斷發生變化,每次職責轉變對他來說都是一次挑戰,當他的角色從單純的技術走向技術管理的方向時,他開始承擔很多過去沒有想過的責任。作為領導,團隊裡每一個人的錯誤都是自己的錯誤,但團隊裡每一個人的成果未必是自己的成果,這時整個人的心態就需要重新調整。

程立坦承自己是個普通人,如果沒有支付寶和螞蟻金服,他可能會在一個工作崗位上兢兢業業地工作,但是支付寶這個舞台給了他很多鍛煉的機會。幸運的是,他屬於最早加入支付寶的那批員工。在他看來,能夠加入一家剛剛起步的公司是一個巨大的優勢,和後來加入的同事相比,他會更多地瞭解一些事情的背景,這樣就更明白哪些原則是可以打破的。

用他的話說,十年裡犯的錯誤大部分是在支付寶創業的早期,犯了錯誤後學到的東西和書本上學到的東西不一樣,它不僅可以讓人學到經驗,也可以改變人的思考方式和做事原則。

然而,在2013年真正接手之後,程立才發現,首席技術官工作的複雜程度遠遠超出了他的想像。在做首席架構師時,同事對他都非常信任,但凡技術問題都是可以解決的,但擔任首席技術官之後,他突然發現,不僅這種信任變少了,甚至還有很多人反對他。

2013年,支付寶內部有一個工程師論壇,其中一個版塊叫作「暢所欲言」,在這裡,每個人都可以匿名發表對公司、對部門和對團隊的看法。程立剛接手那會兒,全都是負面的帖子,很多人抱怨公司,他也不知道問題出在哪裡,但是大家只是感覺不爽,這種感覺持續了一段時間後才慢慢好轉。

有過此番經歷後,程立覺得,最大的挑戰在於適應變化。今天,儘管程立已經成為阿里巴巴集團的合夥人、螞蟻金服的首席技術官,但是他面臨的挑戰絕不比他剛進入支付寶時少。

2015年5月27日下午,支付寶的很多用戶發現,從當天下午4:30左右開始,支付寶出現網絡故障,轉賬、付款、手機充值等功能均不能正常運行。在進行相關操作時,支付寶會出現「系統錯誤,請稍後再試」、「網絡無法連接」等提示。

巧合的是,當天下午,銀監會網站發佈了關於浙江網商銀行的開業批復,對於一向宣稱自己「系統安全性高,災備能力強」的螞蟻金服而言,這是一個尷尬的時刻。

當天晚上6:05,支付寶錢包官方微博解釋稱,這次事故是「由於杭州市蕭山區某地光纖被挖斷」而「造成目前少部分用戶無法使用支付寶」。支付寶表示,運營商正在搶修,工程師正在緊急將用戶請求切換至其他機房。支付寶還特別強調,用戶的資金安全並不會因此而受到影響,交易數據不同步的情況也會在修復後恢復同步。

金融領域的系統安全一直是監管機構工作的重點。2013年6月,某大型國有銀行在系統升級時也曾出現全國大面積癱瘓的情況,根據當時媒體報道,全國多地用戶在登錄網銀系統時均出現了「登錄失敗,因系統原因暫無法獲取當前交易結果」的提示,但是所有問題在1~2個小時內便處理好了,系統的回退也很快。即便如此,這次事故也被監管機構當作案例來反覆「敲打」各家銀行重視系統安全。對於涉足金融領域的螞蟻金服來說,系統安全的問題當然也是重中之重。

從當天下午五時許到七時許,持續了兩個小時左右的故障最終被排除,雖然時間不算長,但是由於支付寶在互聯網金融領域的系統重要性,以及其獨特的基於雲計算的IT技術架構,這次故障仍備受關注。

各種報道鋪天蓋地,業界聚焦於這個問題,如果按金融機構系統災備標準衡量,即使在出現光纜被挖斷的情形下,系統的運行也應該正常無誤,人們開始懷疑支付寶或者螞蟻金服的金融安全能力是否真的如宣傳般那麼強大。同時,大家也在想,基於雲計算的IT技術架構是否真的能夠經受住金融級別的考驗。

這樣的擔憂不無道理。支付寶底層的基礎雲平台架構,不僅支撐著支付寶,也是浙江網商銀行的基礎,未來還將輸出給其他金融機構。對於有意成為互聯網金融基礎設施服務提供商的螞蟻金服來說,系統的安全保障能力受到了外界更加嚴格的審視。

當天下午,程立在辦公室裡感受到了一種不同於以往的壓力。作為螞蟻金服的首席技術官,他需要不斷去回應各種質疑,在支付寶和螞蟻金服這麼多年,大風大浪沒少經歷,賬目三期、「雙十一」的難關都遇到過,但與以往不同的是,這次程立不再是一線解決問題的業務骨幹,而是技術方面的主管領導。程立說,這一次他體會到了在賬目三期項目時邵曉鋒等人的壓力。

像當年邵曉鋒他們那樣,程立盡量不去打擾一線技術人員,讓他們能夠專注地恢復光纖和系統,而他更多的是做解釋和說明的工作,同時也在不斷復盤,想以後怎麼去改進。

事後程立覺得,這次事件對於螞蟻金服來說,既特別不幸,又特別幸運。

說不幸,是因為螞蟻金服的外接光纖其實都是雙光纖的,而被挖斷的這根光纖恰好是同管的,之前公司已經排查出了這個問題,還要求運營商去整改,誰知正好在這個當口,剛好挖斷了這節同管的光纖,當時螞蟻金服的「異地多活」技術又恰好做到一半,深圳機房剛剛完成了切流,還有待演練將其夯實,所以,系統恢復的時間略長了一些,如果再過一段時間發生這個事情,交易就不會中斷這麼長時間。

說幸運,是因為這次事故給快速成長的螞蟻金服敲響了警鐘。程立說,在這個事故中,真正對主交易的影響只有一個多小時,類似的故障支付寶幾乎每年都有,但是用戶對2015年的那一次事故特別在意,這件事情讓公司上下都看到了螞蟻金服對用戶、對整個社會越來越重要的影響。出了這件事情以後,公司在基礎設施投入的時候會更加警覺,會將事情做得更加細緻和徹底。

吸取了這件事情的教訓,現在螞蟻金服的技術團隊每個月都會做幾次演練,通過不斷演練來錘煉自身的技術能力。程立告訴我,就在我們見面的當天凌晨還有一次演練。他相信,通過這樣不斷的演練,一定會錘煉出真正的能力。

在螞蟻金服的業務越來越深度進入金融領域之後,作為首席技術官的程立將對風險的敬畏擺在了更高的位階。

早些年時,程立認為,在支付寶做技術,有兩個難題是一定要解決的:第一是讓系統容量可以無限增長,因為過去公司總是擔心下一年系統容量能不能持續增長;第二是希望系統可持續使用,即永遠不會擔心系統會宕機。從2015年「雙十一」大促來看,第一個問題基本解決得差不多了,系統每天處理十億筆、百億筆、千億筆,只要不斷往裡擴展資源就可以。接下來的目標就是讓系統持續可用,這也是為什麼螞蟻金服在「異地多活」的架構上進行持續的投入和演練,目的就是讓螞蟻金服成為具備這個基礎能力的平台。

「我作為一個首席技術官,可以什麼事情都不做,但是有關風險的事情是我的頭等大事。」程立說。在他的眼中,互聯網金融的本質既有互聯網也有金融,兩方面的基因糾纏在一起,密不可分。在螞蟻金服的產品和服務裡,所有金融該有的屬性它都有,風險是逃不掉的,挑戰在於怎麼對金融的風險能力有更深的理解。他要思考的是,在互聯網情形下,怎樣去理解創新背後的風險。

只看金融業務的風險還不夠,當金融和互聯網產生聯繫時,技術的風險也隨之而來。螞蟻金服為此特別成立了技術風險部,這在互聯網公司中是絕無僅有的,這個部門專門去看在技術上有哪些風險,以及如何理解技術風險與業務風險的結合。

今天的螞蟻金服已經具有系統重要級的影響,其對風險的重視程度與日俱增,相對於傳統金融市場的信用風險和流動性風險,螞蟻金服更需要防範的是技術風險。從公司內部角度看,如果支付寶出問題,整個集團就會遇到麻煩;從公司外部角度看,支付寶有幾億用戶,涉及金錢時一出事就是大事,不僅可能傷及整個支付行業,也可能對上游產業造成影響,並最終影響老百姓的生活。

「創新是一個一百年的事情,如果不穩妥,一次事故所造成的影響就會非常大,所以要有一顆敬畏之心。」程立說。

[1] PB,計算機存儲單位。1PB=1024TB。

[2] EB,計算機存儲單位。1EB=1024PB。

[3] 面向服務的體系結構(Service-Oriented Architecture,SOA)是構造分佈式計算的應用程序的方法。它將應用程序功能作為服務發送給最終用戶或者其他服務。

[4] WS-Transaction是由BEA系統公司、IBM和微軟開發的Web服務規範。WS-Transaction描述了一種協調類型,這種協調類型用於WS-Coordination中的可擴展協調框架。它定義了兩個協調類型:原子事務(AT)為個人操作,以及業務活動(BA)為長期運行的事務。在構建要求分佈式活動的結果達成一致的應用程序時,開發人員可以使用這些協調類型中的一種或兩種。

[5] 見《湖畔大學三板斧:馬雲及阿里合夥人首次公開創業心法》之「彭蕾:阿里巴巴的人才觀,阿里需要什麼樣的員工」,喜馬拉雅App。

《螞蟻金服》