大數據徵信

「徵信」的英文單詞是Credit Reporting或者Credit Sharing,可以理解為信用報告或者信用分享。這種報告和分享的需求最早來自放貸機構,機構在放貸之前需要瞭解借款人的信用狀況,徵信中心就是這樣一個信息交流和共享的平台。

從1992年到2006年,在央行的主導下,中國逐漸建立起全國統一的企業和個人徵信系統,基本覆蓋了所有徵信機構以及每一個有信用活動的企業和個人。目前,這個徵信系統已經成為我國重要的金融基礎設施,但央行個人徵信中心在數據的覆蓋面上也有不足。比如,目前個人徵信中心的數據主要是放貸數據,那些沒有貸款記錄的人,徵信中心並沒有數據,這就給基於數據的互聯網徵信帶來了發展機遇。

大數據、雲計算和人工智能等技術的發展深刻地改變了徵信業,技術的進步使徵信從原本放貸機構之間信息報送和共享的範疇中跳了出來,一躍成為五彩斑斕的生活場景。在當今中國的徵信市場,芝麻信用等互聯網公司背景的徵信機構將大數據徵信作為抓手,希望利用電商、社交、金融交易等廣泛的數據來源,開啟「大數據徵信」的嶄新時代。

與此同時,中國徵信市場的准入政策的放開,為芝麻信用這樣的民營徵信機構打開了參與這個市場的大門。

2013年,國務院發佈了《徵信業管理條例》(以下簡稱《條例》)。《條例》的公佈為中國徵信業的發展奠定了法治基礎。《條例》對從事個人徵信業務的機構和企業徵信業務的機構規定了不同的設立條件,前者採用審批制,後者採用備案制。

就在胡滔入職的第二天,即2015年1月5日,芝麻信用就收到了央行正式批籌的文件。胡滔的同事說,這是她入職帶來的好運。同樣也正是在當天下午,一堂針對在京記者的徵信小課在北京東三環環球財富中心螞蟻金服的辦公室裡舉行,芝麻信用首席數據科學家俞吳傑是授課講師之一,那也是他大學畢業後時隔十年第一次回到北京。對胡滔和俞吳傑而言,此時接到央行正式批籌的文件具有特殊的意義。

央行網站發佈的《關於做好個人徵信業務準備工作的通知》(以下簡稱《通知》)中,要求芝麻信用等八家公司做好個人徵信業務的準備工作。事實上,螞蟻金服關於徵信業務的研究和探討早在2012年就開始了。此前,小貸業務在這方面積累了豐富的數據運營和風控的經驗。

與傳統徵信機構不同的是,芝麻信用是一家通過數據來判斷信用的技術公司,致力於通過雲計算、機器學習等技術客觀呈現個人的信用狀況。在芝麻信用一百三十多人的團隊中,數據和技術團隊占比超過2/3。目前,其團隊主要由數據科學家、國外徵信公司華人精英,以及本土培養的數據技術與風險管理人才三部分構成。其中不乏在國外知名徵信機構工作十餘年的資深數據科學家、風控和數據分析專家。[1]

胡滔將芝麻信用的核心能力概括為三點。一是具有充分的數據源。二是在數據源完善的情況下的建模能力,即在海量的數據中利用算法找到核心變量,揭示規律的本質。前兩點可以歸納為大數據的能力。三是雲計算的能力。雲計算一方面提供了更為強大、靈活、可拓展的計算能力;另一方面使芝麻信用能夠在雲端更便利地與合作機構交互。

目前,芝麻信用有數十家數據合作夥伴。其中,正面數據有教育部的學歷、學籍,各地的水電煤、社保、公積金、稅務繳納等;負面數據包括最高法「老賴」、法院涉及經濟糾紛的判案裁決、合作夥伴反饋的違約信息等。可以說,實時、多維的數據是評分科學、客觀、公正的關鍵。

在有了數據之後,芝麻信用的大數據科學家會通過邏輯回歸、決策樹、隨機森林等模型算法,對各維度數據進行綜合處理和評估,並從用戶信用歷史、行為偏好、履約能力、身份特質、人脈關係五個維度呈現個人信用狀況。比如,要考察一個既有家庭責任感又經常進行愛心捐助的人的信用水平,就要靠這兩個因子進行組合驗證運算,而更多的情況下,變量不止兩兩組合。因此,在算法的背後還有強大的運算能力作為支撐。

《螞蟻金服》