盤點2018年計算機視覺領域技術突破
回顧2018年,是屬于人工智能的一年,不論是Google、Facebook、Intel、阿里巴巴等通過產業(yè)布局進入人工智能領域的互聯(lián)網企業(yè),亦或如曠視科技Face++、極鏈科技Video++、優(yōu)必選科技這樣直接以人工智能起家的原生技術企業(yè),都將AI注入到每個角落,掀起了一輪又一輪的技術高潮。
因而,除了NLP研究突破接連不斷,CV領域同樣精彩紛呈,伴隨著各式各樣落地應用如此接近人們的生活,技術也變得越發(fā)成熟。本文整理了在2018年,在CV技術領域取得的最主要的一些重大技術突破。
BigGAN發(fā)布
Ian Goodfellow在2014年設計了GAN,在之后的幾年中,圍繞這個概念產生了多種多樣的應用程序。
其中,在ICLR 2019論文中出現的BigGAN,同樣是一個GAN,只不過更強大,是擁有了更聰明的課程學習技巧的GAN,由它訓練生成的圖像連它自己都分辨不出真假,因為除非拿顯微鏡看,否則將無法判斷該圖像是否有任何問題,因而,它更被譽為史上最強的圖像生成器。
在計算機圖像研究史上,BigGAN帶來的突破是劃時代的,比如在ImageNet上進行128×128分辨率的訓練后,它的IS得分能達到166.3,是之前最佳得分52.52分3倍;除了搞定128×128小圖之外,BigGAN還能直接在256×256、512×512的ImageNet數據上訓練,生成更讓人信服的樣本。
英偉達Video-to-Video Synthesis
英偉達在2018年的收獲頗豐,他們的研究焦點從標準的監(jiān)督學習轉向更具挑戰(zhàn)性的機器學習,如半監(jiān)督學習,領域適應,主動學習和生成模型等。其中,由英偉達在2018年末發(fā)布的最大成果之一便是視頻到視頻生成(Video-to-Video synthesis),它通過精心設計的發(fā)生器、鑒別器網絡以及時空對抗物鏡,合成高分辨率、照片級真實、時間一致的視頻,實現了讓AI更具物理意識,更強大,并能夠推廣到新的和看不見的更多場景。
因而,Video-to-Video Synthesis也被看作是在過去幾年中,視頻領域的一次重大突破,畢竟從靜態(tài)框架轉換為動態(tài)框架的難度是很大的,但機器訓練卻在盡量模擬預測視頻將會發(fā)生的情景,通過給定的輸入視頻學習映射函數,產生仿真度極高的視頻內容。
Fast.ai18分鐘訓練ImageNet
在普遍認知還停留在需要大量計算資源來執(zhí)行適當的深度學習任務時,Fast.ai通過使用16個公共AWS云實例,每個配備8個NVIDIA V100 GPU,運行fast.ai和PyTorch,用18分鐘在ImageNet上將圖像分類模型訓練到了93%的準確率,刷新了一個新的速度記錄。
這是一個令人驚喜的結果,尤其在公共基礎設施上訓練ImageNet能達到這種準確性,并且比其專有TPU Pod群集上的谷歌DAWNBench記錄快40%,運行成本僅約為40美元。這意味著一個關鍵的里程碑出現了,幾乎所有人都可以在一個相當大的數據集上訓練大規(guī)模神經網絡。
除了這些重要的節(jié)點之外,2018年的計算機視覺技術也部署更多方面,不論是亞馬遜發(fā)布Rekognition將計算機視覺置于開發(fā)人員、微軟為OneDrive和SharePoint推出了新的AI服務、Google相冊讓我們的記憶變得可搜索、還是每個場景下都正在逐漸普及的AI人臉識別等等,計算機視覺正在逐步滲透到我們生活的每個部分。
最后,最值得注意的是,計算機視覺的市場增長幾乎與其技術能力的增長是一樣快的,預計到 2025年,計算機視覺領域會帶來超過262億美元的收益,因而在人工智能的未來里,計算機視覺一定是最有力的表現形式,并將隨處可見。

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產業(yè)對接會成功舉辦