文/智物
”不要相信那種(基于海量數(shù)據(jù)的AI優(yōu)勢)炒作!盠anding AI創(chuàng)始人、CEO,曾經(jīng)的谷歌大腦的創(chuàng)始人,百度首席科學(xué)家吳恩達(dá)簡單明了地談到自己對下一步AI趨勢的看法。
他認(rèn)為,AI的下一步趨勢應(yīng)該是圍繞更小的數(shù)據(jù)集構(gòu)建算法。他舉的例子是,智能手機(jī)裝配線上的劃痕檢測,不會有哪個工廠擁有上百萬張的智能手機(jī)劃痕圖片數(shù)據(jù)。
他指的是之前的圖像識別機(jī)器學(xué)習(xí)算法,需要靠百萬張圖片數(shù)據(jù),用以訓(xùn)練模型和系統(tǒng)。但是,現(xiàn)在的手機(jī)巨頭們應(yīng)該沒有哪個工廠,有這樣多的瑕疵產(chǎn)品的圖片。
除非是20年前的某家中國手機(jī)廠。
吳恩達(dá)認(rèn)為,AI在這些傳統(tǒng)行業(yè)中的價(jià)值將會比消費(fèi)互聯(lián)網(wǎng)中潛在的價(jià)值會更大。雖然,目前還處于一個比較初級的階段。
麥肯錫預(yù)測,在醫(yī)療保健、制造業(yè)和農(nóng)業(yè)當(dāng)中,AI可以幫助實(shí)現(xiàn)13萬億美金的附加價(jià)值。
但問題在于,較小數(shù)據(jù)樣本意味著數(shù)據(jù)的質(zhì)量,比數(shù)據(jù)規(guī)模更重要。吳恩達(dá)指出,不同的人,即使是同一個工廠的兩個檢查員,記錄數(shù)據(jù)的方式也會完全不同,讓較小的數(shù)據(jù)集的采納面臨挑戰(zhàn)。
吳恩達(dá)關(guān)于Small Data的觀點(diǎn),此前在工業(yè)界和學(xué)術(shù)界已有討論。《財(cái)富》網(wǎng)站在評述的時候?qū)⑵渑c此前數(shù)據(jù)石油觀點(diǎn)對立,這一派觀點(diǎn)的代表人物是創(chuàng)新工場創(chuàng)始人李開復(fù)。
李開復(fù)曾稱,中國外賣訂購的數(shù)量是美國的10倍,移動支付的數(shù)量是美國的50倍,共享單車的使用是美國的300倍,這些數(shù)據(jù)可以成為新的商業(yè)引擎,從而幫助改善用戶體驗(yàn)。
據(jù)此,中國公司因?yàn)閾碛泻A康臄?shù)據(jù),而在AI時代擁有優(yōu)勢。李開復(fù)的結(jié)論是,中國會成為數(shù)據(jù)時代的沙特。《經(jīng)濟(jì)學(xué)人》也曾經(jīng)用一篇封面文章,來解釋數(shù)據(jù)作為新時代的石油的觀點(diǎn)。
李開復(fù)這一觀點(diǎn)一個附帶的結(jié)論是,如今的互聯(lián)網(wǎng)數(shù)據(jù)牢牢把握在位數(shù)不多的幾家中、美巨頭手中,比如阿里巴巴、騰訊、Facebook、谷歌、蘋果等等。這也成為李開復(fù)口中所謂的數(shù)據(jù)黑洞,這些公司在AI領(lǐng)域的巨大優(yōu)勢,以及其他創(chuàng)始團(tuán)隊(duì)難以逾越的鴻溝。
吳恩達(dá)明確反對這一觀點(diǎn),他認(rèn)為,不應(yīng)該相信這一炒作,即使是沒有海量數(shù)據(jù)集,初創(chuàng)企業(yè)和大公司仍然有機(jī)會去推動AI創(chuàng)新。龐大的數(shù)據(jù)集除了對互聯(lián)網(wǎng)公司有用之外,沒有太大的應(yīng)用空間。
“龐大的搜索數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)對于檢測時裝缺陷毫無用處,對于醫(yī)療記錄也沒有太大的幫助。”