要解決大的問題,仍然需要一種跨學科的方法,需要一種不僅僅只有「數據分析」的應用。中國唐宋時期的思維方法毫不過時,如今中國在大數據時代尋求一種全新的「大數據思維」時不妨回溯歷史,重新發現自己獨有的處理複雜社會問題的方法。
「殺手級」應用還未出現
全球範圍內都在掀起一股大數據應用的熱潮。如今的硅谷應該被重新命名為「數據谷」。權威機構預測,到2020年將存在200億~300億個網絡連接裝置,這意味著我們每年都會產生比之前20萬年還多的數據。在硅谷,人們將數據稱為新的「石油」,石油可以產出汽油和電力,而「數據石油」一旦提煉出來,將會產生無人駕駛汽車〔運用GPS(全球定位系統)數據和交通數據〕、無人機、可穿戴設備等。石油和數據之間的不同在於,石油的產品無法再產出更多石油,而數據的產品(無人駕駛汽車、無人機和可穿戴設備等)能產出更多的數據。
然而,頗令人失望的是,我們並不知道該拿這些正在「大爆炸」的數據怎麼辦。大多數情況下我們會做「數據分析」,但數據分析至少從20世紀60年代就開始了,這有什麼新鮮呢?不過是通過對數據的分析試圖發現事物之間隱藏的規律性或潛在的問題,然後優化整個流程,最終賺更多的錢而已。
讓人汗顏的是,自計算機問世以來,數據分析最主要的應用還是使大公司利潤最大化。比如,大家提到大數據最有名的應用案例時都會提到亞馬遜和阿里巴巴的「推薦引擎」,即通過分析其他消費者的數據來建議你該買什麼;再比如,被頻繁提到的關於大數據的故事還有美國最大零售連鎖店之一的塔吉特(Target),它讓一個父親意外地發現自己還是高中生的女兒懷孕了,這曾一度讓大數據聲名顯赫。事實上,塔吉特的算法識別購買系統特別關注准媽媽們,唯一的原因就是想要給她們推送特別促銷廣告,這難道就是我們能用大數據對孕婦做的所有事情?
如今中國很多中小企業也在積極構建自己的大數據系統,比如服裝企業用數據分析實現個性化生產和銷售,比如製造水杯的企業考慮將杯子內置傳感器,再增加一個APP(計算機應用程序),將其變成智能水杯。
但這些商家用數據分析也只是為了銷售更多的產品,或者用來決定到底該發佈哪種廣告。這就是我們能用海量數據做的所有事情?未免太有限了吧?可以說,大數據真正的「殺手級」應用還沒有被發明出來。
我們先來看下大數據的現狀。誰在產生大部分數據?機器。又是誰在閱讀大數據?不管你相信與否,網上大約30%的「讀者」都是機器人而非人類,甚至連大多數世界新聞都是被機器人閱讀的。
未來,數據的主要讀者將是機器人。大數據世界的真實圖景是:機器產生數據,機器閱讀數據,並構造一個以機器為中心的數據世界。這也是為什麼迄今為止大數據唯一有用的應用是數據分析,因為機器最擅長數學和統計,卻不擅長理解人類世界。我們還沒有大數據領域真正偉大的「殺手級」應用,正是因為是機器,而非人類在「閱讀」這些數據。
大數據時代需要的不僅是「數據分析」
最近幾年來,很多製造業企業紛紛建立了智能工廠,由於機器與機器的連接產生並收集了大量的數據,但到底能用這些數據做什麼,到底如何挖掘數據的價值還讓很多人困惑。很多人還是寄希望於數據分析,認為足夠精巧的數據分析應該可以帶來很大改變。
確實,大數據時代必然要求數據分析能力不斷提高。如今,在很多大學,計算和統計方法、可視化分析方法等都在不斷改善和提升。但這些複雜的方法只是為了達到一個簡單的目的,即讓快速計算變得更廉價,因為大數據分析通常費用昂貴。
數據分析能力的快速提升確實讓人驚歎,起初人們破譯人類基因組需要花上10年時間,現在卻有創業者在不到一天的時間裡就能完成。這種能力也受到越來越多的重視,比如,斯坦福大學最受計算機系本科生歡迎的教材是《大規模數據挖掘》。也就是說,任何人都可以使用書中的方法來分析大數據。
但是,一種新的數學方法並不能給我們帶來更有用的大數據應用,最多只能帶來更便宜的數據分析。原因很簡單:數學家們並不瞭解世界上的重大問題。要解決大的問題,仍然需要一種跨學科的方法,需要一種不僅僅只有「數據分析」的應用。
比如,大數據分析比較典型的方法是尋找數據之間的相關性。典型的邏輯是,如果你跟許多拖欠信用卡貸款的人擁有幾乎一樣的購買記錄,很可能你也會跟他們一樣拖欠貸款。在技術層面,數據分析會試圖將這種關聯性建立模型。不過我們也就又回到了大多數的數據都是被機器閱讀和分析這個話題中。
數據分析會存在哪些問題呢?數個世紀以來,我們早就發現「假設—形成」這個方法有一個弱點:在大量數據中發現相關性並不難,難的是理解其中的因果關係。比如,如果有人發現,昨天在意大利都靈所有患上流感的人都穿著黑白相間的T恤衫,這並不意味著是這種T恤衫引起了流感,或者賣這種T恤衫的人就是傳染源,這很有可能意味著這些患上流感的人都是尤文圖斯足球俱樂部的球迷,因為這個俱樂部的官方球服就是黑白相間的T恤衫。
都靈一半的人口都是尤文圖斯足球俱樂部的球迷,從來不踢足球也對足球毫不瞭解的數學家們很可能會得出錯誤的結論,一個對足球一無所知的機器分析出來的結果很可能錯得更離譜。相反,一位瞭解都靈的人會很快意識到這種數據上的相關性並不直接包含因果關係,而會推測這場流感是在尤文圖斯球隊昨天踢球的體育場爆發的。
這種數據之間因果關係難以判定的問題在統計學誕生之初就存在了,然而,當我們面臨的數據量特別大的時候,這個問題就顯得尤其棘手,因為大量數據中的數據偶然相關性也是巨大的。
大數據時代我們當然需要更好的數學家,但我們同樣需要來自各個學科的學者們。畢竟,解決人類社會的問題並不是一場數學競賽。
大數據在生物醫藥領域尤其有用
大數據應該關注和解決哪些「大問題」?大數據可以應用得更廣泛,最讓人津津樂道的是預測未來。比如,可以用大數據預測大氣污染什麼時候會到達一個危險的水平,我們可以在那之前就採取措施;可以預測犯罪活動最有可能在哪裡、在什麼時候集中爆發,我們可以提前部署警力;已經有不少銀行在使用一種類似大數據分析的系統來決定是否要給顧客貸款。
總的來說,我認為,大數據預測在醫藥生物領域用途特別廣泛。因為這個領域的數據實際上是無窮盡的,可惜的是我們甚至都沒能將已有的數據儲存下來。人類基因組包含數十億鹼基對,我們目前對這些鹼基對到底在人類基因中發揮什麼作用,又是如何相互作用導致了疾病實在是所知甚少。又比如存在於人體內對人體的機能(如消化)發揮著重要作用的細菌微生物,其基因更比人的鹼基對多百倍。我們不知道這些鹼基對的作用,但是,我們有80億人生活在這個星球上,這是一個巨大的潛在數據庫。大數據預測可以幫助我們找到哪些基因組合會帶來疾病,而哪些組合又會提高強大的免疫力。比如,有些人對瘧疾免疫,我們就可以專門研究這些人體內基因組中的鹼基對的分佈情況,找出其中的奧秘。
斯坦福大學曾舉行了一個名為「生物醫學領域的大數據」的年度峰會,峰會提出的口號就是「數據科學將重塑21世紀人類健康」。谷歌也曾按照地區搜索和預測流感的爆發,發起了一個研究世界範圍內基因數據分佈情況,進而預測疾病的項目。非常可惜的是,很多項目需要一些特定的大數據才能為公眾提供有用的應用,但這些數據掌握在一些不願意向研究者開放數據庫的公司手裡。此外,我們身邊觸手可及的數據也可以提供很多有用的信息,但被我們「浪費」掉了。比如,斯隆(Sloan)基金會正在贊助這樣一個大數據項目,該項目專門收集人們在火車站的機器觸摸屏上留下的微生物信息,這些信息可以讓我們知道該城市人們的健康狀況。
大數據下商業合作大趨勢
大數據解決「大問題」確實需要廣泛的合作,這意味著大數據領域的「殺手級應用」也會在合作中誕生,而不僅僅是幾個大公司之間的遊戲。大公司的確對大數據的應用做出了很大的貢獻。谷歌和Facebook作為世界上屈指可數的兩個大數據公司,其貢獻主要是實現了海量數據的實時處理。
我們簡單回顧一下大公司在大數據處理上的技術史。谷歌的團隊由傑夫·迪安(Jeff Dean)和桑傑·格瑪沃爾特(Sanjay Ghemawat)(2004年左右)領導。他們開發了並行、分佈式算法MapReduce,可以對大量的、多種類的服務器機群提供極大的擴展能力,解決了公司管理數十億搜索查詢數據以及與其他用戶交互的實際問題。
Facebook的團隊則開發了Cassandra(一套開源分佈式非關係型數據庫系統)。這個系統利用了亞馬遜和谷歌的技術,解決了Facebook的數據管理問題。Facebook在2008年將其贈送給了阿帕奇開源社區。喬納森·埃利斯(Jonathan Ellis)和馬特·派菲兒(Matt Pfeil)於2010年在加州聖塔克拉利塔成立了DataStax公司。該公司使用Cassandra並把它發展成能夠與甲骨文競爭的關鍵任務數據庫管理系統,在業內數一數二。
2005年,一位雅虎的工程師道格·卡丁(Doug Cutting)和邁克·卡夫拉(Mike Cafarella)開發了一個分佈式文件系統(HDFS),2006年以後我們稱為Hadoop,用於在機群服務器上存儲和處理大量的數據集。Hadoop曾經在雅虎內部使用並最終變成另一個阿帕奇的開源框架。此後,隨著Hadoop成為行業標準,出現了不少以它為基礎的大數據創業公司。與此同時,谷歌也開發了自己的大數據服務引擎Dremel(2010年才對外宣佈,實際上2006年就已在內部使用)。
目前,我們確實還沒有大數據領域的「iPhone」或「Facebook」之類的殺手級應用。但切記,相關的軟件已經有了,而且是免費的。大數據的最大使用者谷歌和Facebook已經將它們的大數據基礎設施做成了面向公眾的開源軟件,包括Facebook開發的Cassandra以及谷歌的諸多大數據技術服務。此外,其他不少由美國高校或政府研發的大數據分析軟件也都是開源的。
為什麼呢?因為我們想要越來越多的創業者在大數據領域探索和試驗,甚至連大公司也希望更多的小公司能夠參與進來。我們想要看一下是否有人能發明大數據領域的「殺手級應用」。
大公司將它們的大數據服務作為開源平檯面向公眾釋放的信號是,即便競爭最激烈的商業領域也更看重合作而非競爭,這也是未來商業的大勢所趨。
中國有潛力創造全新的大數據思維
毫無疑問,大數據時代確實需要一種全新的思維方式。因為數據有著多種多樣的來源,任何一個專家(無論是人類還是機器)都不可能吸收所有的數據,這就要求跨學科的方法。
20世紀30年代,有兩個人在美國開創了「大科學」,麻省理工學院的萬尼瓦爾·布什(Vannevar Bush,「二戰」時期美國最偉大的科學家和工程師之一)和歐內斯特·勞倫斯(Ernest Orlando Lawrence,美國著名物理學家、1939年諾貝爾物理學獎得主)。雖然兩人合作的動機來自戰爭,而受益的是和平時期的社會。
布什和勞倫斯意識到解決大問題需要很多不同的思想:「大科學」正是將不同學科的科學家們聚集在一起。這種「大科學」方法給我們帶來了很多影響深遠的發明,比如核能和互聯網。可以說,「大科學」就是「大數據」的最早應用,區別是數據當時都存在於不同科學家們的大腦裡,但當時和現在使用的方法是相似的,即為了能用大數據解決大問題,我們需要一種跨學科的方法來創造、創新。
這樣跨學科的研究機構已經在不斷湧現。比如,哈佛大學量化社會科學研究所主任蓋瑞·金(Gary King)就召集和組建了一個由社會學家、經濟學家、物理學家、律師、心理學家等組成的研究團隊(你可以從網站http://www.iq.harvard.edu/team-profiles上看到他們目前的陣容組成)。加州大學伯克利分校也建立了數據科學研究所(BIDS),成員中同樣有人種志學者、神經系統科學家、社會學家、經濟學家、物理學家、生物學家以及心理學家,甚至還包括一位地震學家。
實際上,用大數據解決大問題還有更早的例子,即古代中國。我認為,當今中國也最有潛力創造全新的大數據思維模型,因為中國人幾百年前就已經發明並使用了這種思維。唐宋時期,理想的「君子」一定是一位跨學科的學者,他必須同時是政治家、歷史家、作家、畫家、詩人、書法家……他需要學習所有的經典書籍。可以說,中國早就創造了一種「多任務處理思維」,唐宋時期的讀書人能夠肩負起解決社會大問題的責任,正是由於他們從不同的領域吸收了足夠多的知識。
有人會問,書法到底跟解決社會大問題有什麼關係?當然有,它在無形中塑造著你的頭腦和精神,讓你更有智慧。而只要擁有一個足夠智慧的大腦,不管面臨什麼問題,你總能找到正確的解決方案。
我認為,中國唐宋時期的思維方法毫不過時,如今中國在「大數據時代」尋求一種全新的「大數據思維」時不妨回溯歷史,重新發現自己獨有的處理複雜社會問題的方法。