現在你已瞭解了機器學習的秘密。將數據變為知識的機器不再是一個黑匣子:你知道魔法是如何發生的,以及它能做什麼、不能做什麼。你已經遇到複雜性怪獸、過擬合難題、維數災難、探索與開發困境。你大體上知道了谷歌、臉書、亞馬遜和所有其他網站把你每天慷慨提供給它們的數據用來做了什麼,它們為什麼能幫你找到東西、過濾垃圾,且不斷改善它們的服務。你已經看到,在世界機器學習研究實驗室裡正醞釀什麼,你可以旁觀他們正在創造的未來。你已經看到機器學習的五大學派以及它們的主算法:符號學派和逆向演繹,聯結學派和逆向傳播,進化學派和遺傳算法,貝葉斯學派和概率推理,類推學派和支持向量機。因為你已經遍歷廣闊的區域,協調跨越邊境,爬到頂峰,和很多機器學習算法相比,你能更好地欣賞風景,而那些學習算法只能在其領域中每日艱苦工作。你可以看到共同主題流淌在這片土地上,就像一條地下河流,並且你還明白,這五種學習算法,表面上看差別很大,其實也只是單一通用學習算法的五個方面。
旅程還遠遠沒有結束。我們還沒有終極算法,只是瞥到它可能長什麼樣。如果某些基本的東西還找不到,有些東西沉浸在其歷史當中,而我們在本領域中無法看到,那會怎麼樣呢?我們需要一些與之前想法不一樣的新想法。這就是我寫本書的原因——讓你開始思考。我在華盛頓大學關於機器學習的夜校教課。2007年,網飛大獎宣佈後不久,我提議將其作為班級項目中的一個。我班上的一位學生——傑夫·霍伯特被它迷住了,並在課程結束時繼續鑽研這個項目。在他第一次瞭解機器學習的兩年之後,他最終成為獲勝組的成員,當時總共有兩個獲勝組。現在輪到你了。你可以從UCI數據庫上下載一些數據集(archive.ics.uci.edu/ml/)並開始這場比賽。當你做好準備時,可以對Kaggle.com進行瞭解,這是一個專門組織管理機器學習比賽的網站,然後挑一兩個鏈接並點擊進入。當然,如果你招募一兩個朋友來和你一起工作,那樣會更好玩。如果你也著迷了,就像傑夫那樣,最後變成一個專業的數據科學家,那麼歡迎進入世界上最讓人陶醉的領域。如果你發現自己不滿意於當前的學習算法,那就發明新的算法——或者只是出於好玩而發明。我最殷切的希望就是,你對這本書的反應,就像我對讀的第一本人工智能書的反應一樣,這已經過去20多年:這個領域有太多的事情要做,我不知道從何開始。如果有一天你發明了終極算法,請不要帶著它跑到專利局,而是開放資源。終極算法應被任何人或者組織擁有,這一點太重要了。它應用的速度會比你為它申請許可的速度要快。但如果你打算創業,記得讓每個世界上的男人、女人、孩子都能享受它。
無論是出於好奇,還是專業興趣,你讀了這本書,我希望和你的朋友、同事分享你學到了什麼。機器學習接觸到我們每個人的生活,而我們想用它來做什麼也由自己決定。帶著你對機器學習的新瞭解,你現在處於更好的位置來思考諸如隱私、數據分享、工作的未來、機器人之間的戰爭、人工智能的承諾與危險之類的問題;而且瞭解到這一點的人越多,我們越有可能避免圈套,並找到正確的路。這也是我寫本書另外一個主要原因。統計學家知道做預測不容易,尤其是對未來的預測,而計算機科學家知道預測未來的最佳方法就是創造未來,但未經檢驗的未來不值得創造。
感謝你讓我做你的嚮導。我想送給你一份臨別禮物。牛頓說過,他就像一個在沙灘上玩耍的男孩,這邊撿一枚鵝卵石,那邊撿一塊貝殼,而真理的大海就在他面前,等著他去發現。300年後,我們已經收集了一些了不得的鵝卵石和貝殼,但大片未被發現的海洋仍然延伸至遠處,閃爍著希望的光輝。我的禮物就是一艘船——機器學習。現在該是時候揚帆起航了!