Waymo無人車啟用DeepMind異步優(yōu)化方法,提高傳感器識別效率
自動駕駛車輛采用神經(jīng)網(wǎng)絡來執(zhí)行許多駕駛任務,從檢測物體和預測其他人的行為方式,到規(guī)劃汽車的下一步動作。一般情況下,訓練單獨的神經(jīng)網(wǎng)絡需要數(shù)周的微調和實驗,以及大量的算力,F(xiàn)在,Waymo與DeepMind的研究合作,從達爾文對進化論中汲取靈感,使這項訓練更加有效和高效。
神經(jīng)網(wǎng)絡的性能受訓練方案的影響非常大,主要思路就是找到最優(yōu)學習率、讓神經(jīng)網(wǎng)絡在每次迭代后變得更好,但性能波動不需要太大。
尋找最佳訓練方案(或“超參數(shù)方案”)通常是通過工程師的經(jīng)驗和直覺,或通過廣泛的搜索來實現(xiàn)的。在隨機搜索中,研究人員在多種類型的超參數(shù)上應用了許多隨機超參數(shù)調度,以便獨立地并行地訓練不同的網(wǎng)絡 ,然后可以選擇性能最佳的模型。
因為并行訓練大量模型在計算上是昂貴的,所以研究人員通常通過在訓練期間監(jiān)視網(wǎng)絡,手動調整隨機搜索,定期剔除最弱表現(xiàn)的運算并釋放資源,以從頭開始用新的隨機超參數(shù)訓練新網(wǎng)絡。這種類型的手動調整可以更快地產生更好的結果,但這是非常耗費人力的。
為了提高這一過程的效率,DeepMind 的研究人員設計了一種基于進化競爭(PBT)自動確定良好超參數(shù)調度的方法,該方案結合了手動調整和隨機搜索的優(yōu)點。
基于PBT模型如何運作:
PBT的工作原理是同時啟動許多超參數(shù)搜索,并定期進行“競爭”以比較模型的性能。從訓練池中刪除失敗的模型,并且僅使用獲勝模型繼續(xù)訓練,使用稍微突變的超參數(shù)更新。
PBT比研究人員采用的傳統(tǒng)方法更有效,例如隨機搜索,因為每個新的神經(jīng)網(wǎng)絡都繼承了其父網(wǎng)絡的完整狀態(tài),并且不需要從一開始就重新開始訓練。此外,超參數(shù)不是靜態(tài)的,而是在整個培訓過程中積極更新。與隨機搜索相比,PBT將更多的資源培訓用于成功的超參數(shù)值。
實驗取得了不錯的進展,PBT算法不僅實現(xiàn)了更高的精度,并且減少24%的誤報、保持了較高的召回率。
同時,PBT還節(jié)省了時間和資源。通過PBT訓練的網(wǎng)絡,時間和資源只有原來的一半。24%的誤報,同時也能保持較高的召回率。此外,PBT所需的訓練時間和計算資源僅為原來的一半。
現(xiàn)在,Waymo 已將 PBT 納入了技術基礎設施中,研究人員點點按鈕就能應用該算法,DeepMind 每隔 15 分鐘就會對模型進行一次評估,以讓測試結果更準確。
這是Waymo第一次曝光的與DeepMind在網(wǎng)絡上的合作,然而這種異步優(yōu)化的PBT方法其實早就出現(xiàn)了。
它在Multi-Agent或者并行訓練中被提到過,甚至在DeepMind 星際爭霸II里的AlphaStar中都使用了該方法。主要用來自適應調節(jié)超參數(shù)。打破了通常的深度學習,超參數(shù)都是憑經(jīng)驗預先設計好的,會花費大量精力且不一定有好的效果,特別是在深度強化學習這種非靜態(tài)(non-stationary)的環(huán)境中,要想得到SOTA效果,超參數(shù)還應隨著環(huán)境變化而自適應調整,比如探索率等等。這種基于種群(population)的進化方式,淘汰差的模型,利用(exploit)好的模型并添加隨機擾動(explore)進一步優(yōu)化,最終得到最優(yōu)的模型。
有學者曾分別從強化學習,監(jiān)督學習,GAN三個方面做實驗,論證了這個簡單但有效的算法。
與其他領域不同的是,自動駕駛會涉及人身安全,所以應用起來不像博弈游戲一樣隨便,通過競爭篩選模型是一個優(yōu)勢,但同樣也可能是個劣勢,需要提供足夠的種群才能讓篩選出的網(wǎng)絡結構變得意義。
請輸入評論內容...
請輸入評論/評論長度6~500個字
圖片新聞