中文精品视频,人妻少妇看a偷人无码电影

當(dāng)前位置： OFweek 人工智能網(wǎng) > 計(jì)算機(jī)視覺(jué) > 正文

盤點(diǎn)2018年計(jì)算機(jī)視覺(jué)領(lǐng)域技術(shù)突破

2019-01-04 10:57

張康康

關(guān)注

回顧2018年，是屬于人工智能的一年，不論是Google、Facebook、Intel、阿里巴巴等通過(guò)產(chǎn)業(yè)布局進(jìn)入人工智能領(lǐng)域的互聯(lián)網(wǎng)企業(yè)，亦或如曠視科技Face＋＋、極鏈科技Video＋＋、優(yōu)必選科技這樣直接以人工智能起家的原生技術(shù)企業(yè)，都將AI注入到每個(gè)角落，掀起了一輪又一輪的技術(shù)高潮。

因而，除了NLP研究突破接連不斷，CV領(lǐng)域同樣精彩紛呈，伴隨著各式各樣落地應(yīng)用如此接近人們的生活，技術(shù)也變得越發(fā)成熟。本文整理了在2018年，在CV技術(shù)領(lǐng)域取得的最主要的一些重大技術(shù)突破。

盤點(diǎn)2018年計(jì)算機(jī)視覺(jué)領(lǐng)域技術(shù)突破

BigGAN發(fā)布

Ian Goodfellow在2014年設(shè)計(jì)了GAN，在之后的幾年中，圍繞這個(gè)概念產(chǎn)生了多種多樣的應(yīng)用程序。

其中，在ICLR 2019論文中出現(xiàn)的BigGAN，同樣是一個(gè)GAN，只不過(guò)更強(qiáng)大，是擁有了更聰明的課程學(xué)習(xí)技巧的GAN，由它訓(xùn)練生成的圖像連它自己都分辨不出真假，因?yàn)槌悄蔑@微鏡看，否則將無(wú)法判斷該圖像是否有任何問(wèn)題，因而，它更被譽(yù)為史上最強(qiáng)的圖像生成器。

盤點(diǎn)2018年計(jì)算機(jī)視覺(jué)領(lǐng)域技術(shù)突破

在計(jì)算機(jī)圖像研究史上，BigGAN帶來(lái)的突破是劃時(shí)代的，比如在ImageNet上進(jìn)行128×128分辨率的訓(xùn)練后，它的IS得分能達(dá)到166．3，是之前最佳得分52．52分3倍；除了搞定128×128小圖之外，BigGAN還能直接在256×256、512×512的ImageNet數(shù)據(jù)上訓(xùn)練，生成更讓人信服的樣本。

英偉達(dá)Video－to－Video Synthesis

英偉達(dá)在2018年的收獲頗豐，他們的研究焦點(diǎn)從標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)轉(zhuǎn)向更具挑戰(zhàn)性的機(jī)器學(xué)習(xí)，如半監(jiān)督學(xué)習(xí)，領(lǐng)域適應(yīng)，主動(dòng)學(xué)習(xí)和生成模型等。其中，由英偉達(dá)在2018年末發(fā)布的最大成果之一便是視頻到視頻生成（Video－to－Video synthesis），它通過(guò)精心設(shè)計(jì)的發(fā)生器、鑒別器網(wǎng)絡(luò)以及時(shí)空對(duì)抗物鏡，合成高分辨率、照片級(jí)真實(shí)、時(shí)間一致的視頻，實(shí)現(xiàn)了讓AI更具物理意識(shí)，更強(qiáng)大，并能夠推廣到新的和看不見(jiàn)的更多場(chǎng)景。

因而，Video－to－Video Synthesis也被看作是在過(guò)去幾年中，視頻領(lǐng)域的一次重大突破，畢竟從靜態(tài)框架轉(zhuǎn)換為動(dòng)態(tài)框架的難度是很大的，但機(jī)器訓(xùn)練卻在盡量模擬預(yù)測(cè)視頻將會(huì)發(fā)生的情景，通過(guò)給定的輸入視頻學(xué)習(xí)映射函數(shù)，產(chǎn)生仿真度極高的視頻內(nèi)容。

Fast．a(chǎn)i18分鐘訓(xùn)練ImageNet

在普遍認(rèn)知還停留在需要大量計(jì)算資源來(lái)執(zhí)行適當(dāng)?shù)纳疃葘W(xué)習(xí)任務(wù)時(shí)，F(xiàn)ast．a(chǎn)i通過(guò)使用16個(gè)公共AWS云實(shí)例，每個(gè)配備8個(gè)NVIDIA V100 GPU，運(yùn)行fast．a(chǎn)i和PyTorch，用18分鐘在ImageNet上將圖像分類模型訓(xùn)練到了93％的準(zhǔn)確率，刷新了一個(gè)新的速度記錄。

盤點(diǎn)2018年計(jì)算機(jī)視覺(jué)領(lǐng)域技術(shù)突破

這是一個(gè)令人驚喜的結(jié)果，尤其在公共基礎(chǔ)設(shè)施上訓(xùn)練ImageNet能達(dá)到這種準(zhǔn)確性，并且比其專有TPU Pod群集上的谷歌DAWNBench記錄快40％，運(yùn)行成本僅約為40美元。這意味著一個(gè)關(guān)鍵的里程碑出現(xiàn)了，幾乎所有人都可以在一個(gè)相當(dāng)大的數(shù)據(jù)集上訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)。

除了這些重要的節(jié)點(diǎn)之外，2018年的計(jì)算機(jī)視覺(jué)技術(shù)也部署更多方面，不論是亞馬遜發(fā)布Rekognition將計(jì)算機(jī)視覺(jué)置于開發(fā)人員、微軟為OneDrive和SharePoint推出了新的AI服務(wù)、Google相冊(cè)讓我們的記憶變得可搜索、還是每個(gè)場(chǎng)景下都正在逐漸普及的AI人臉識(shí)別等等，計(jì)算機(jī)視覺(jué)正在逐步滲透到我們生活的每個(gè)部分。

最后，最值得注意的是，計(jì)算機(jī)視覺(jué)的市場(chǎng)增長(zhǎng)幾乎與其技術(shù)能力的增長(zhǎng)是一樣快的，預(yù)計(jì)到 2025年，計(jì)算機(jī)視覺(jué)領(lǐng)域會(huì)帶來(lái)超過(guò)262億美元的收益，因而在人工智能的未來(lái)里，計(jì)算機(jī)視覺(jué)一定是最有力的表現(xiàn)形式，并將隨處可見(jiàn)。