三倍速解決數(shù)據(jù)標(biāo)注大工程,谷歌AI“數(shù)據(jù)標(biāo)注協(xié)助師”亮了
隨著智能系統(tǒng)的普及,深度學(xué)習(xí)和人工智能的不斷崛起,讓科學(xué)界看到了一切事物智能化的可能性。人工智能技術(shù)正被用來(lái)處理各類(lèi)復(fù)雜的事情,然而要完成機(jī)器的智能化訓(xùn)練,需要依靠數(shù)量極為龐大的數(shù)據(jù)集。而這些數(shù)據(jù)在用于機(jī)器學(xué)習(xí)訓(xùn)練之前,需要先進(jìn)行明確的標(biāo)注,機(jī)器只有通過(guò)學(xué)習(xí)大量已明確標(biāo)注名稱(chēng)的數(shù)據(jù)后,才能做到自主識(shí)別并進(jìn)一步作決策。
數(shù)據(jù)標(biāo)注:機(jī)器的“導(dǎo)師”
機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)的效果常被用來(lái)做探索性的實(shí)驗(yàn),是不可控的。而在實(shí)際產(chǎn)品應(yīng)用中,通常使用的是有監(jiān)督學(xué)習(xí),即用有標(biāo)注的數(shù)據(jù)來(lái)作為先驗(yàn)經(jīng)驗(yàn)。某種程度上講,帶有標(biāo)注的大量數(shù)據(jù),就是機(jī)器學(xué)習(xí)的指導(dǎo)老師,每一個(gè)標(biāo)注的圖像數(shù)據(jù)將會(huì)影響到最終的算法結(jié)果。
數(shù)據(jù)標(biāo)注有許多類(lèi)型,如分類(lèi)、畫(huà)框、注釋、標(biāo)記等等。在進(jìn)行數(shù)據(jù)標(biāo)注之前,首先要對(duì)數(shù)據(jù)進(jìn)行清洗,得到符合要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無(wú)效的數(shù)據(jù)、整理成規(guī)整的格式等等。常見(jiàn)的幾種數(shù)據(jù)標(biāo)注類(lèi)型有:分類(lèi)標(biāo)注、標(biāo)框標(biāo)注、區(qū)域標(biāo)注、描點(diǎn)標(biāo)注等,還有一些需要根據(jù)不同的需求進(jìn)行不同的標(biāo)注。
有多少智能,就有多少人工
隨著數(shù)據(jù)的需求量日益猛增,所需用來(lái)完成數(shù)據(jù)標(biāo)注工作的勞動(dòng)力也隨之高漲。很多知名的科技公司會(huì)雇傭大量人力來(lái)完成這樣細(xì)碎的任務(wù),用以支撐機(jī)器學(xué)習(xí)。亞馬遜,蘋(píng)果,谷歌,微軟等等,他們要么擁有自己的勞務(wù)眾包平臺(tái),例如亞馬遜勞務(wù)眾包平臺(tái)“Amazon MechanicalTurk”;要么使用第三方服務(wù),例如AMT。
而在國(guó)內(nèi),除了有百度旗下類(lèi)似眾包模式的數(shù)據(jù)平臺(tái)-百度眾測(cè),還存在著這樣一套分工流程:上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會(huì)進(jìn)一步眾包給兼職的自由人士。這條產(chǎn)業(yè)鏈上,隨著層層分包,最終落到最底層的數(shù)據(jù)標(biāo)注師薪酬就低得驚人。
目前的數(shù)據(jù)標(biāo)注工廠,多集中在河北、河南、山東、山西等傳統(tǒng)人力密集企業(yè)的選址偏好的地區(qū)。然而這些數(shù)據(jù)標(biāo)注工廠又被冠以“人工智能行業(yè)的富士康”。為了應(yīng)對(duì)龐大的數(shù)據(jù)標(biāo)注需求,標(biāo)注員們必須加班加點(diǎn)盯著電腦屏幕,夜以繼日地重復(fù)枯燥的工作。這些人力為AI產(chǎn)業(yè)提供養(yǎng)料,這是AI金字塔的基礎(chǔ),處于最底層。
北京和貴陽(yáng),便是數(shù)據(jù)標(biāo)注世界里的兩座“雙子星”城市。北京聚集著大量的人工智能公司,不斷地涌出數(shù)據(jù)需求;而貴陽(yáng)則著力發(fā)展“大數(shù)據(jù)戰(zhàn)略”,以更低廉的勞動(dòng)力成本支撐起聚集在首都的人工智能底層數(shù)據(jù)需求。
一名沒(méi)有任何經(jīng)驗(yàn)的標(biāo)注員,半天的培訓(xùn)即可開(kāi)工,一兩個(gè)月之后可變成熟練工,一天就可以完成1500張-2000張圖片的標(biāo)注。然后,這些數(shù)據(jù)會(huì)被應(yīng)用到自動(dòng)駕駛、AI安防、智能身份認(rèn)證等人工智能應(yīng)用領(lǐng)域。在某種程度上,這就意味著AI算法的優(yōu)化,取決于數(shù)據(jù)標(biāo)注的質(zhì)量,而把控這些質(zhì)量的,是完全不懂AI技術(shù)的一群人。
谷歌AI協(xié)助數(shù)據(jù)標(biāo)注,效率提高三倍
前一段時(shí)間,谷歌在其AI博客上介紹了一款基于AI和深度學(xué)習(xí)的圖像標(biāo)注方式——“流體標(biāo)注”,它使用機(jī)器學(xué)習(xí)來(lái)注釋類(lèi)標(biāo)簽并勾勒出圖片中的每個(gè)對(duì)象和背景區(qū)域?勺鳛槿斯(biāo)注者的有力輔助工具,谷歌聲稱(chēng)它可以將標(biāo)記數(shù)據(jù)集的速度提高三倍,有望緩解目前機(jī)器學(xué)習(xí)研究中,高質(zhì)量的訓(xùn)練數(shù)據(jù)獲取難的瓶頸。
流體標(biāo)注從預(yù)訓(xùn)練的語(yǔ)義分割模型(Mask R-CNN)的輸出開(kāi)始,該模型生成大約1,000個(gè)具有類(lèi)別標(biāo)簽和置信度分?jǐn)?shù)的圖像片段,其中具有最高置信度的片段將被傳遞給人類(lèi)工作者以進(jìn)行標(biāo)記。注釋器可以通過(guò)儀表板修改圖像,選擇要更正的內(nèi)容和順序,將現(xiàn)有細(xì)分的標(biāo)簽與自動(dòng)生成的短名單進(jìn)行交換,添加細(xì)分以覆蓋缺失的對(duì)象,移除現(xiàn)有細(xì)分或更改重疊細(xì)分的深度順序。
“流體注釋是使圖像注釋更快更容易的第一個(gè)探索性步驟,”Google機(jī)器感知部門(mén)的高級(jí)研究科學(xué)家Jasper Uijlings和Vittorio Ferrari在博客文章中寫(xiě)道!霸谖磥(lái)的工作中,我們的目標(biāo)是改進(jìn)對(duì)象邊界的注釋?zhuān)ㄟ^(guò)包含更多的機(jī)器智能使界面更快,最后擴(kuò)展界面來(lái)處理以前看不見(jiàn)的類(lèi),最需要高效的數(shù)據(jù)收集!
雖然這種方式尚未落實(shí)到具體工作之中,但仍是值得期待的一項(xiàng)技術(shù)。并且在國(guó)外,谷歌并不是唯一一個(gè)將AI應(yīng)用于數(shù)據(jù)注釋的人。
舊金山創(chuàng)業(yè)公司Scale采用人工數(shù)據(jù)貼標(biāo)機(jī)和機(jī)器學(xué)習(xí)算法的組合,為L(zhǎng)yft,通用汽車(chē)等客戶分類(lèi)未標(biāo)記的數(shù)據(jù)。總部位于瑞典的Mapillary 創(chuàng)建了一個(gè)街道級(jí)圖像數(shù)據(jù)庫(kù),并使用計(jì)算機(jī)視覺(jué)技術(shù)分析這些圖像中包含的數(shù)據(jù)。
以人力助AI,實(shí)則本末倒置
“有多少人工智能,就有多少人工!逼鋵(shí)這就是一種本末倒置,原本人工智能是為了方便人們生活,協(xié)助人們工作,提高工作效率,如今卻形成了憑借大量廉價(jià)勞動(dòng)力托起人工智能的局面,當(dāng)國(guó)外開(kāi)始著手于使用AI解放勞動(dòng)力時(shí),國(guó)內(nèi)的人工智能公司是否也應(yīng)該將視線移至最初最源端的數(shù)據(jù)標(biāo)注呢?
用人力堆砌起來(lái)的人工智能,永遠(yuǎn)不能稱(chēng)為真正的人工智能。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)