訂閱
糾錯
加入自媒體

機器學習根本沒有捷徑

2019-04-23 14:25
來源: 億歐網

O'Reilly最新的調查數據顯示,大數據仍然只是1%,或者15%的企業(yè)游戲。大多數的企業(yè)(85%)依然沒有破解AI和機器學習的密碼。僅僅只有15%的“見多識廣”的企業(yè)在生產過程中運行一些數據模型超過了5年。更重要的是,這些企業(yè)更傾向于在一些重要的領域花費時間和精力,比如模型偏差和數據隱私。相對而言,那些還屬于初學者之列的企業(yè)仍然還在努力嘗試著尋找啟動按鈕。

不幸的是,對于那些希望通過自動快捷方式比如Google的AutoML或者通過聘請咨詢公司縮小數據科學差距的企業(yè),我們給出的答案是:實現數據科學的確需要花費時間,而且沒有捷徑可循。

聰明的企業(yè)專注于深層次數據

首先,值得注意的是,O'Reilly的調查數據來自于其自選的一群人:那些曾經參加過O'Reilly活動的,或者參加過該公司在線研討會或通過其他途徑與之有接觸的人。這些人群對于數據科學都有前瞻性的興趣,即使(按照調查數據的顯示)他們中的大部分人并沒有從事太多的相關工作。對于那些沉浸在大數據體驗中的人來說,最好的客戶群體就是那些被稱為“見多識廣”的企業(yè),它們在生產過程中使用的數據模型已經運行了5年以上。

從調查上可以發(fā)現一個有趣的現象,那就是這些企業(yè)是怎樣稱呼他們自己的數據專家的。具有豐富數據經驗的企業(yè)稱之為數據科學家。而那些思維尚停留在上世紀90年代“數據挖掘”模式的企業(yè)則更傾向于稱其為“數據分析師”。如下圖所示。

調查發(fā)現,無論企業(yè)選擇如何稱呼他們的數據專家,企業(yè)在AI和機器學習方面的經驗越豐富,他們就越有可能依靠內部數據科學團隊建立模型,如下圖所示。

幾乎沒人關注云機器學習服務(至少現在還沒有)。那些只有2年以下生產經驗的企業(yè)傾向于依賴外部的顧問來搭建機器學習模型。對于這樣的企業(yè)而言,這種感覺就像一種不用投入人力而享受數據科學收益的機會,但這是一個非常愚蠢的方法。

企業(yè)的數據越復雜,其數據科學團隊就越能建立模型,并評估項目成功的關鍵指標。縱觀所有的企業(yè),產品經理對于項目成功的作用是36%,管理團隊的數據是29%,數據科學團隊的貢獻是21%。

對于那些經驗豐富的企業(yè)來說,產品經理的作用依然占到34%,數據科學團隊27%,幾乎與管理團隊(28%)相同。

對那些缺乏經驗的企業(yè)而言,管理團隊占到31%,數據科學團隊占比較少(16%)。這不是個問題,事實是這些數據科學團隊最適合計算出如何使用數據并衡量其成功。

太多時候,是外行指導外行

這種依賴管理層來推動數據科學的想法引起了人們的注意。調查顯示,不少高管自稱是數據驅動的,但卻無視了數據其實并不支持那些靠直覺驅使的決策(62%的人承認這么做)。

那些缺乏大數據悟性的企業(yè)似乎愿意口頭提供數據,但他們根本不明白有效數據科學的細微差別。他們缺乏必備的經驗來確?梢垣@得有意義的、無偏見的數據洞察力。

關于如何理解機器學習模型,以及如何相信該模型所導致的結果,更多有成熟經驗的企業(yè)顯然掌握了Gartner博客網絡中的一位博主Andrew White的評估方法:

AI的創(chuàng)新之處就在于AI可以重新定義新的基線,換句話說就是那些我們認為太過復雜的東西和非常規(guī)的東西,目前都可以利用AI來實現。和之前的技術相比,AI應該可以處理更加復雜而且具有認知能力的工作。

這個新的現實只有在AI自動處理的結果是合理的時候才有意義。如果這個新奇的工具所得出的決策和結果讓人類無法理解,那人們就會放棄這個工具。因此在某種程度上,能否理解AI所做出的決策也非常重要。

然而,理解決策和理解算法如何工作是兩回事。人是可以掌握輸入、選擇、權重以及結果的原理的,而即便算法能夠在一定程度上將所有這些結合到一起,但我們依然無法證明這一進程。如果結果和輸入之間的差距太大,那么人對算法的信任就很有可能會喪失——這是人的天性。

想要達到這種理解水平是無法通過花錢雇傭咨詢顧問能實現的。云端也不是現成的。運用工具比如Google的AutoML可以“使得那些具有有限機器學習專長經驗的開發(fā)者能訓練針對其業(yè)務需求的高質量模型!边@聽起來非常好,但是想要從數據科學中受益需要有數據科學的經驗。這不僅僅是調整模型的問題,更需要知道如何實現,這需要大量的試錯經驗。

另外,從事數據科學需要有人文的心態(tài),再次強調,需要經驗。沒有捷徑可循。實際上,這意味著那些早期投資于數據科學的企業(yè)應該發(fā)現自己領先于那些沒有競爭優(yōu)勢的同行——這種差異很可能會持續(xù)下去。

對于那些希望迎頭趕上的企業(yè),Gartner分析師Svetlana Sicular最為經典的忠告仍然在耳邊回響:“企業(yè)應該在內部多看看。其實內部已經有人比那些神秘的數據科學家更了解自己的數據。”只要企業(yè)明白要在企業(yè)完成好的數據科學需要花費時間,并且給予其人員學習和成長的空間,他們就不再需要尋找捷徑。

聲明: 本文系OFweek根據授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號