AI基礎(chǔ)設(shè)施革命: 關(guān)于數(shù)據(jù)隱私保護(hù)和價(jià)值挖掘的實(shí)踐思考
流動(dòng)中的數(shù)據(jù)價(jià)值挖掘 V.S. 隱私保護(hù)
— 數(shù)據(jù)擁有者的控制力數(shù)據(jù)自由流動(dòng)中的價(jià)值挖掘能讓AI更好地發(fā)揮價(jià)值,但同時(shí),數(shù)據(jù)流動(dòng)過程中不經(jīng)節(jié)制的應(yīng)用,也會(huì)帶來數(shù)據(jù)隱私侵犯的隱患。最近多個(gè)金融大數(shù)據(jù)公司遭到立案調(diào)查,從數(shù)據(jù)源的角度來看,其中一個(gè)重要原因就是該類公司的爬蟲對(duì)觸達(dá)的數(shù)據(jù)未經(jīng)授權(quán)進(jìn)行存儲(chǔ)或超出了約定的使用范圍。
舉例來說,如果有一個(gè) App 聲稱幫助用戶進(jìn)行多個(gè)金融賬戶進(jìn)行管理并綜合呈現(xiàn)個(gè)人現(xiàn)金流等信息,為了幫助 App 呈現(xiàn)這些信息,用戶就需要提供這些金融賬戶的訪問權(quán)限。但如果在這個(gè)過程中 App 對(duì)個(gè)人銀行賬戶內(nèi)的所有信息都進(jìn)行了抓取和存儲(chǔ),并將這些信息提煉出來的標(biāo)簽出售給第三方或利用標(biāo)簽開展新的業(yè)務(wù)。由于這些過程未對(duì)用戶進(jìn)行告知并獲得許可,都是一種對(duì)數(shù)據(jù)使用權(quán)的濫用。
從當(dāng)下的工程實(shí)踐來看,解決挖掘和隱私的兩難,可能目前最好的解決方法是給數(shù)據(jù)擁有方一個(gè)控制力,包括對(duì)數(shù)據(jù)收集的授權(quán)和收集后保存和使用的控制。國(guó)際上普遍進(jìn)行的實(shí)踐或者規(guī)范(如GDPR)都傾向于對(duì)個(gè)人擁有的數(shù)據(jù)及其數(shù)據(jù)的各種上下文環(huán)境進(jìn)行準(zhǔn)確的授權(quán)。
比如GDPR中就會(huì)要求第一方數(shù)據(jù)要明確“自己采集到了哪些數(shù)據(jù)”,當(dāng)用戶有了這個(gè)明目之后,應(yīng)當(dāng)有權(quán)來選擇“保留哪些刪除哪些”;在此基礎(chǔ)之上,還比如會(huì)要求對(duì)數(shù)據(jù)處理方法作出明確問詢和授權(quán),“比如通過采集到的用戶點(diǎn)贊的帖子的內(nèi)容和類型來學(xué)習(xí)用戶的興趣愛好”;這些興趣愛好作為標(biāo)簽,雖然不是原始數(shù)據(jù),仍然需要用戶進(jìn)行逐一的明確授權(quán)。
當(dāng)我們通過給予數(shù)據(jù)擁有方控制力的方式去平衡數(shù)據(jù)價(jià)值挖掘和隱私保護(hù),在實(shí)踐中又會(huì)出現(xiàn)一個(gè)新的挑戰(zhàn)——如何在不侵犯?jìng)(gè)人隱私的前提下,獲得個(gè)人的授權(quán)。
舉個(gè)例子,比如在獲得興趣愛好標(biāo)簽授權(quán)的時(shí)候不太可能有用戶可以預(yù)先對(duì)近乎無限多的興趣愛好進(jìn)行一一授權(quán),一般的過程也是首先由數(shù)據(jù)挖掘方獲得了某個(gè)標(biāo)簽,再針對(duì)這個(gè)標(biāo)簽進(jìn)行問詢。
我們?cè)谶^去的工作實(shí)踐中見過的最好的處理方法是首先對(duì)多達(dá)三到六百萬常用的興趣愛好做知識(shí)圖,將這些興趣愛好的包含關(guān)系或者關(guān)聯(lián)性整理出來;之后再對(duì)各類興趣愛好通過找到包含關(guān)系中處于包含當(dāng)前愛好的比較泛化的那類愛好進(jìn)行問詢這樣點(diǎn)到為止的方式來完成。
即便做到這樣,雖然消耗了巨大的資源并且有很高的門檻,也很難說做到了完美,因此也就不難理解多數(shù)公司在應(yīng)對(duì)GDPR或者相關(guān)合規(guī)的問題上面臨著巨大的挑戰(zhàn)這個(gè)事實(shí)。
數(shù)據(jù)擁有者的控制力如何賦予?數(shù)據(jù)擁有者控制力的核心意義在于讓每個(gè)擁有者在挖掘和保護(hù)之間選擇自己的平衡點(diǎn)。為了給擁有者控制力,第一步要討論的是誰(shuí)是數(shù)據(jù)的擁有者這個(gè)問題。
一般對(duì)于個(gè)人數(shù)據(jù)來說,無論是個(gè)人的身份識(shí)別信息或者生物統(tǒng)計(jì)信息這樣對(duì)個(gè)人進(jìn)行描述的數(shù)據(jù),還是用戶的行為信息(比如訪問了哪些app,在app里面做了哪些事情)或者由這些行為信息所得到的新的標(biāo)簽這樣的用戶生成數(shù)據(jù),都會(huì)認(rèn)為擁有者是這個(gè)人本身。
尤其對(duì)于產(chǎn)生的標(biāo)簽數(shù)據(jù)來說,有些情況下認(rèn)為由于標(biāo)簽是比如數(shù)據(jù)采集方進(jìn)行學(xué)習(xí)而得來的因此擁有者是采集方這個(gè)想法也不應(yīng)該是被廣泛認(rèn)同的。
圍繞擁有方是產(chǎn)生數(shù)據(jù)的個(gè)體這條線去思考,在整個(gè)數(shù)據(jù)生命周期鏈條里面就存在對(duì)第一方數(shù)據(jù)的控制、第二三方的控制等不同的問題。
對(duì)于第一方來說,由于是數(shù)據(jù)的采集者,涉及的方面也是最多的。Facebook在2018年的F8上宣布一個(gè)針對(duì)給用戶控制力的功能叫Clear History,里面描述的愿景基本理解為可以允許用戶在采集,存儲(chǔ)和使用三個(gè)方面給予控制力。
首先用戶會(huì)看到Facebook從哪些合作方渠道獲得了用戶的什么樣的數(shù)據(jù)(采集可見),之后允許用戶決定是否可以在廣告投放中進(jìn)行使用(使用控制),再次允許用戶對(duì)這些數(shù)據(jù)進(jìn)行立即刪除的操作(存儲(chǔ)控制)。
這個(gè)功能聽上去簡(jiǎn)單,但實(shí)際上對(duì)于一個(gè)正在運(yùn)轉(zhuǎn)的機(jī)構(gòu)來說,要涉及到鑒別所有的數(shù)據(jù)來源、在復(fù)雜的數(shù)據(jù)流里面識(shí)別各類數(shù)據(jù)、以及對(duì)某個(gè)數(shù)據(jù)的所有存儲(chǔ)位置進(jìn)行控制這幾方面能力。對(duì)于小機(jī)構(gòu)來說資源和投入產(chǎn)出比肯定是不夠的,對(duì)于大機(jī)構(gòu)來說由于內(nèi)部數(shù)據(jù)流太過復(fù)雜,為了實(shí)現(xiàn)它往往會(huì)需要做整個(gè)系統(tǒng)的重新設(shè)計(jì)和實(shí)現(xiàn),代價(jià)也不言而喻。
舉例來說,為了實(shí)現(xiàn)Clear History:首先為了在幾萬PB的數(shù)據(jù)倉(cāng)庫(kù)中甚至更大的冷存儲(chǔ)中找到所需要控制的數(shù)據(jù),就需要做整個(gè)數(shù)據(jù)集的語(yǔ)義識(shí)別(很多時(shí)候由于表單的schema并不統(tǒng)一,所以直接使用metadata很難準(zhǔn)確的判斷數(shù)據(jù)類型),這個(gè)過程類似給數(shù)據(jù)打標(biāo)簽。為了可以覆蓋更多的存儲(chǔ)點(diǎn),會(huì)需要根據(jù)已經(jīng)得到的數(shù)據(jù)標(biāo)簽對(duì)數(shù)據(jù)流進(jìn)行端到端的識(shí)別。當(dāng)所有的存儲(chǔ)點(diǎn)識(shí)別完成后,為了實(shí)現(xiàn)功能中的實(shí)時(shí)刪除,還需要在重新定義數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上配合一個(gè)高吞吐量的中心管理系統(tǒng)。
這個(gè)過程協(xié)調(diào)了許多內(nèi)部部門,消耗了大量的資源,耗時(shí)一年以上。不難看出,在企業(yè)間的數(shù)據(jù)流通中也存在潛在的類似挑戰(zhàn)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 張勇等人退出阿里合伙人
- 9 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 10 AI視頻,攪動(dòng)1.5萬億市場(chǎng)