深度學(xué)習(xí),它給我們真正帶來的東西是什么?未來,對行業(yè)和社會有什么影響?中國公司的機會在哪?
最重要是——深度學(xué)習(xí)真的給我們帶來影響了嗎?
答案顯而易見。
任何一場革命,絕不是以敲鑼打鼓的方式,來到你的身邊。等到某一天,你忽然發(fā)現(xiàn)快要天翻地覆時,再去看,發(fā)現(xiàn)自己已被別人拋棄了。
過去以端為中心的技術(shù)革命,不能說結(jié)束了,但已不再是時代的風(fēng)口。
技術(shù),進入了一場以數(shù)據(jù)為驅(qū)動的革命。
互聯(lián)網(wǎng)不再只是一張?zhí)摂M的網(wǎng),而更像是一個大數(shù)據(jù)庫。大量的數(shù)據(jù),沉甸甸,就在那里。沒有人知道,怎么把這些數(shù)據(jù),更加完整清晰的表達出來。
我們需要重新思考技術(shù)的致勝點。
怎么思考呢?我講幾個關(guān)鍵點。
1.數(shù)據(jù)和運算能力,變得越來越重要。
孔子說過一句話:“學(xué)而不思則罔,思而不學(xué)則殆”。
先說,學(xué)而不思則罔。你拿了很多知識,不深度學(xué)習(xí),不行。如果你沒有運算能力,有了一堆數(shù)據(jù),算不出來,沒用。不是深度越深,效果越好。
這是個復(fù)雜的問題。需要不停算,不停實驗。
今天,整個深度學(xué)習(xí)的理論,還不夠成熟,依然落后于實踐。更多時候,只能靠試。此時,運算能力,就變得非常關(guān)鍵。
假如,別人做一次運算,要兩個禮拜,而你只需要一天或2個小時。同樣時間內(nèi),你可以做更多實驗,積累更多寶貴經(jīng)驗,迭代速度也更快。
這就好像,兩個人起點一樣,但由于迭代速度不同,導(dǎo)致了最后成就的千差萬別。每一次迭代,相當于你的一次翻版。你是一天迭代一次,還是一年迭代一次。你對自己翻版本的速度有多快,決定你最后以多大的成果超過對手。
思而不學(xué)則殆呢?簡單說,如果你沒有數(shù)據(jù),一點用都沒有。
這個時代越來越需要海量數(shù)據(jù)。數(shù)據(jù)量越大越好。甚至于,我們以前被認為不是很關(guān)鍵的數(shù)據(jù),都有可能灌進去,再看效果。
這才有了一句流行語——Welcome to the GPU world.
GPU最早為快速滿足增長的圖形計算需求而設(shè)計。它不同于CPU,在多核多線程處理上浮點性能更佳,使得它在圖形界的并行運算,變得超強。
早期,谷歌發(fā)表了一篇論文說——深度學(xué)習(xí)的結(jié)果,要跑在英偉達的GPU上。很快,做芯片起家的英偉達,其公司股價開始蹭蹭蹭一路上漲,漲了好幾十塊。
然而,如果今天,你還以為英偉達是個顯卡公司,那就大錯特錯了。如今汽車的防撞系統(tǒng),警告系統(tǒng),以及無人駕駛采用的雙目視覺圖像處理,英偉達是第一大提供商。它其實變成了一家人工智能公司。
說到這,大家可能也會奇怪——今天關(guān)于無人駕駛,輔助駕駛的新聞越來越多,也有越來越多的公司在做,為啥呢?
核心就在于,深度學(xué)習(xí)極大降低了這一門檻。只要你能拿到足夠數(shù)據(jù),就可能實現(xiàn)對物體的各種判斷。
本質(zhì)也帶來了一個技術(shù)上彎道超車的好機會。很多公司辛苦積累的軟件技術(shù)直接作廢了。包括IBM做了語音輸入好多年,上來就被深度學(xué)習(xí)超越了。尤其當谷歌進入語音輸入時,一下就超越了IBM多年的技術(shù)積累。與此同時,谷歌還有足夠多的數(shù)據(jù),以及足夠多的語音樣本,不停輸入。
算法為核心的競爭力,正轉(zhuǎn)換成數(shù)據(jù)為核心競爭力。
我個人覺得,甚至有些算法會消失掉。但,并不是說算法不重要。只是神經(jīng)網(wǎng)絡(luò)的核心算法,提升起來太難。
現(xiàn)在大家都把專注度放在了數(shù)據(jù)和運算。尤其在深度學(xué)習(xí)里,獲取足夠多的數(shù)據(jù),就有機會產(chǎn)生更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)本身差異不會很大,關(guān)鍵比的是——誰能把這些數(shù)據(jù)用好,并快速計算。
數(shù)據(jù)變得越來越重要。尤其在深度學(xué)習(xí)里,獲取足夠多的數(shù)據(jù),就有機會產(chǎn)生更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)本身差異不會很大,關(guān)鍵比的是——誰能把這些數(shù)據(jù)用好,并快速計算。
2.公司研發(fā)結(jié)構(gòu)會發(fā)生很多改變,數(shù)據(jù)獲取和數(shù)據(jù)標注會變得非常重要。
中國在這場競爭中,還是有很大機會。能夠輕易獲取的互聯(lián)網(wǎng)數(shù)據(jù),以及低成本的眾包勞動,將為中國公司帶來訓(xùn)練所需的計算和人力資源。
第一,數(shù)據(jù)獲取的量級。盡管美國整個技術(shù)的前沿性很好,問題在于——硅谷一家小公司拿到的數(shù)據(jù),和一家中國告訴發(fā)展的互聯(lián)網(wǎng)公司拿到的數(shù)據(jù),不可同日而語。
第二,數(shù)據(jù)標注的成本。在美國,要搞數(shù)據(jù)標注,肯定很累,多貴?。〉谥袊?,到珠海或成都隨便找300個人,去幫你標注,成本很低。ImageNet圖像分類大賽,中國人取得的成績明顯突出。國外,微軟或谷歌參賽,都是幾個人去做圖像標注和算法驗證。而中國可以組織足夠多的人去做標注。
我認為,ImageNet大賽,未來的世界冠軍都會來自中國。
3.并行異構(gòu)計算的人才,變成核心競爭力。
過去計算領(lǐng)域都是以CPU為中心的計算模式。深度學(xué)習(xí)要將CPU和GPU兩個加起來。這是兩個技術(shù)的計算模型,是異構(gòu)的模型。
為什么要異構(gòu)?因為GPU是并行的。它需要用來顯示。為了讓你的屏幕刷新保持更快更流暢,就要把GPU分成很多個小的運算單元。每一個運算單元,負責(zé)屏幕某一塊具體區(qū)域的刷新。而大量這樣的運算單元都包含在一個GPU當中。要想跑得快,就得把計算邏輯放在CPU中,同時再把你準備好的數(shù)據(jù)拷貝到GPU中。然后呢?GPU再用并行的方式,計算準備好的這些數(shù)據(jù)。這就是異構(gòu)的模型。
這個模型,是計算體系,也是硬件體系的一次革命,是真正的技術(shù)革命。
舉個例子。現(xiàn)在要完成一個復(fù)雜的大型任務(wù),需分割在100臺機器,讓它們分開跑,又同時共同執(zhí)行同一個全局任務(wù),需要一個數(shù)學(xué)上嚴格的方法來完成。這意味著,每一次計算更新的時候,都要把大數(shù)據(jù)刷一遍,刷幾千遍是何其難的事情。幾十億個參數(shù)的深度學(xué)習(xí)模型,每一次迭代都要把參數(shù)刷一遍。尤其數(shù)據(jù)量足夠大時,這是很難的。
因此,能否調(diào)動大量的運算資源,就會成為核心競爭力。我的判斷是,未來整個研發(fā)結(jié)構(gòu)——重數(shù)據(jù),重運算,這兩點,必然出現(xiàn)。
4.語音和視覺,將成為下一代交互模式。
可能大家沒有注意一個數(shù)據(jù),谷歌已經(jīng)有20%的搜索來自語音。這是很可怕的一個趨勢。
我認為,語音和視覺會是下一代的交互模式。
過去我們從PC時代的十指模式(電腦鍵盤),走到今天的拇指模式(手機),未來一定是自然模式(語音和視覺)。
因為,太多的交互都會變得很簡單。有多簡單呢?只會用接觸的方式去完成。今天之所以還沒有大規(guī)模到來,其實是技術(shù)不夠成熟。
亞馬遜發(fā)布Echo時,為什么谷歌那么在意?我覺得很重要的一點,就是它通過300萬臺的設(shè)備,不停地拿數(shù)據(jù)——用戶的每一次說話,都是一次新的數(shù)據(jù)。這個數(shù)據(jù)足夠多,又反過來加深它的語音能力。
交互模式的變化,不僅改變了產(chǎn)品,也影響了數(shù)據(jù)方式。
5.深度學(xué)習(xí)在各個領(lǐng)域產(chǎn)生的變革才剛剛開始。
無論是現(xiàn)階段的內(nèi)容個性化推薦,還是未來輸入方式的改變,還有太多地方,可以被深度學(xué)習(xí)改變。
比如人臉識別。今天你用支付寶,或招商銀行客戶端,都會讓你掃一掃,準確率已經(jīng)相當高了。高到什么程度呢?有一家公司專門為海關(guān)提供人臉識別服務(wù)。以前用人工查看,看兩個小時后就會出錯,加上深度學(xué)習(xí)算法的系統(tǒng),極大降低了人臉識別的出錯率。
我認為,只要需求越多,它就會越來越準。
比如小米手機出了面孔功能。根據(jù)人臉識別進行照片分類。已經(jīng)可以達到92%的準確率了。包括獵豹。我們在全球有6億月度活躍用戶,一旦建立起深度學(xué)習(xí)的核心技術(shù)能力,獵豹向很多領(lǐng)域的擴展和應(yīng)用結(jié)合就會變成可能。
如果你把深度學(xué)習(xí)看成一種“工具”,就會發(fā)現(xiàn)——它有很多和其它領(lǐng)域,包括傳統(tǒng)行業(yè)相互結(jié)合的機會。
漫漫長路,才剛剛開始。