訴訟頻發(fā)!AI訓(xùn)練“盜用”版權(quán)內(nèi)容,建立共享數(shù)據(jù)庫(kù)迫在眉睫?
AI很強(qiáng),但并不能無(wú)中生有。
AI具備的能力,本質(zhì)上來(lái)自算法和訓(xùn)練大模型所用的數(shù)據(jù),數(shù)據(jù)的數(shù)量和質(zhì)量會(huì)對(duì)大模型起到?jīng)Q定性作用。此前OpenAI工作人員表示,因沒(méi)有足夠多的高質(zhì)量數(shù)據(jù),Orion項(xiàng)目(即GPT-5)進(jìn)展緩慢。不得已之下,OpenAI招募了許多數(shù)學(xué)家、物理學(xué)家、程序員原創(chuàng)數(shù)據(jù),用于訓(xùn)練大模型。
AI公司在數(shù)據(jù)方面面臨的難題遠(yuǎn)不止于此,因頻頻侵權(quán)造成的版權(quán)問(wèn)題,正困擾著AI公司。大型AI公司有足夠的資源和精力應(yīng)對(duì)侵權(quán)問(wèn)題,小公司一旦收到大量起訴,很可能遭受滅頂之災(zāi)。
版權(quán),AI行業(yè)的又一塊絆腳石
自從ChatGPT誕生,版權(quán)之爭(zhēng)就已開啟。最初反對(duì)AI的人以畫師為主,AI公司用他們的作品訓(xùn)練大模型,又搶了他們的工作。但當(dāng)時(shí)AI大模型訓(xùn)練所需的數(shù)據(jù)量不夠大,不至于得罪太多人,畫師群體規(guī)模小,能夠發(fā)出的聲音和起到的效果有限。
可AI大模型功能不斷強(qiáng)化能力的同時(shí),對(duì)于數(shù)據(jù)的需求量也與日俱增。除了公開的科學(xué)論文,AI公司還會(huì)抓取社交平臺(tái)上的帖子、媒體發(fā)布的新聞報(bào)道等信息。社交平臺(tái)上的帖子還好說(shuō),要求不是特別嚴(yán)格,可媒體上的新聞報(bào)道卻存在版權(quán)。
(圖源:豆包AI生成)
2024年11月底,加拿大《多倫多星報(bào)》及旗下的五家媒體,向OpenAI發(fā)起訴訟,稱其在未經(jīng)允許的情況下從加拿大媒體抓取內(nèi)容訓(xùn)練大模型,要求OpenAI為使用的新聞報(bào)道每篇支付2萬(wàn)加元(約合人民幣10萬(wàn)元),總金額估計(jì)有數(shù)十億加元。
面對(duì)《多倫多星報(bào)》的指控和天價(jià)賠償要求,OpenAI自然矢口否認(rèn),并發(fā)表聲明稱訓(xùn)練AI大模型以公開數(shù)據(jù)為基礎(chǔ),以公平使用和國(guó)際版權(quán)原則為依據(jù),對(duì)于創(chuàng)作者是公平的。
不只是加拿大媒體,美國(guó)的The Intercept、《紐約時(shí)報(bào)》、Raw Story、AlterNet ,印度的ANI,以及德國(guó)版權(quán)機(jī)構(gòu)GEMA等,都曾起訴過(guò)OpenAI。
因視頻生成和音頻生成大模型日漸成熟,AI公司引發(fā)的版權(quán)問(wèn)題也愈發(fā)嚴(yán)重。2024年6月,美國(guó)唱片協(xié)會(huì)起訴了Suno和Udio兩家AI音樂(lè)公司。
國(guó)內(nèi)AI行業(yè)存在相同的問(wèn)題,例如位列中國(guó)AI大模型六小龍之一的MiniMax,因未經(jīng)授權(quán)使用愛(ài)奇藝的素材訓(xùn)練海螺AI,日前遭遇愛(ài)奇藝起訴,被索賠10萬(wàn)元。
(圖源:MiniMax)
更有甚者,不但侵犯作品的版權(quán),還侵犯了公眾人物的肖像權(quán)。例如著名的AI孫燕姿、AI雷軍事件,某些網(wǎng)友利用AI合成技術(shù)讓孫燕姿演唱各種歌曲,讓雷軍“口吐芬芳”。2024年4月23日,國(guó)內(nèi)首例AI生成聲音人格侵權(quán)案宣判,被侵權(quán)的殷女士獲勝,侵權(quán)公司賠償其25萬(wàn)元,總算給創(chuàng)作者們一絲安慰。
OpenAI面對(duì)侵權(quán)起訴時(shí),雖表示訓(xùn)練AI大模型以公開數(shù)據(jù)為基礎(chǔ),但公開并不意味著數(shù)據(jù)無(wú)版權(quán)。攝影師拍攝的圖片、編輯創(chuàng)作的文章等內(nèi)容,都存在版權(quán),放任AI公司隨意抓取,無(wú)疑是在侵害創(chuàng)作者的利益。
長(zhǎng)此以往,創(chuàng)作者的創(chuàng)作熱情和信心難免受到打擊,減少內(nèi)容創(chuàng)作。如此一來(lái),訓(xùn)練AI大模型的數(shù)據(jù)也將更加捉襟見(jiàn)肘,影響到AI行業(yè)的正常發(fā)展。如何維護(hù)創(chuàng)作者的合法權(quán)益、打擊侵權(quán)行為,已成為AI行業(yè)必須解決的問(wèn)題。
成立“共享數(shù)據(jù)庫(kù)”勢(shì)在必行
前段時(shí)間國(guó)內(nèi)AI公司DeepSeek基于數(shù)據(jù)蒸餾方案,以其他AI大模型為教師模型,訓(xùn)練出了參數(shù)量和占用資源更少,且訓(xùn)練成本極低的DeepSeek-V3大模型。但因回答用戶問(wèn)題時(shí)自稱“ChatGPT”,DeepSeek-V3遭遇OpenAI CEO山姆·奧特曼嘲諷。自認(rèn)為沒(méi)有侵權(quán)加拿大媒體的OpenAI,面對(duì)其他AI公司對(duì)他們可能存在的侵權(quán)行為卻表現(xiàn)得十分不滿。
無(wú)論山姆·奧特曼如何否認(rèn),OpenAI侵權(quán)的行為已經(jīng)坐實(shí),且侵權(quán)問(wèn)題在整個(gè)AIGC行業(yè)普遍存在。
為處理更多、更復(fù)雜的問(wèn)題,未來(lái)先進(jìn)AI大模型的參數(shù)還會(huì)不斷增加,對(duì)于數(shù)據(jù)量的需求也會(huì)越來(lái)越高。尤其是視頻生成和音頻生成大模型的到來(lái),侵權(quán)行為將更加廣泛、更加頻繁。
(圖源:豆包AI生成)
解決版權(quán)糾紛源頭上需要相關(guān)部門制定相應(yīng)的法律法規(guī),限制AI公司侵權(quán),保護(hù)創(chuàng)作者的權(quán)益。2022年12月印發(fā)的《中共中央 國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》,對(duì)待AI公司使用互聯(lián)網(wǎng)公開內(nèi)容的態(tài)度是,淡化所有權(quán)、強(qiáng)化使用權(quán),如涉及商業(yè)使用,則需要向創(chuàng)作者支付費(fèi)用。
2024年11月19日在西安舉辦的中歐數(shù)字環(huán)境下版權(quán)保護(hù)研討會(huì)上,主辦方強(qiáng)調(diào)將以《中華人民共和國(guó)著作權(quán)法實(shí)施條例》為修訂契機(jī),完善制度設(shè)計(jì),保護(hù)著作人的合法權(quán)益。
中國(guó)版權(quán)協(xié)會(huì)理事長(zhǎng)閻曉宏表示,從技術(shù)角度來(lái)看,使用有版權(quán)的作品要公布版權(quán)信息,原則上要獲得作品的授權(quán),但實(shí)際上是做不到的。究其原因,企業(yè)訓(xùn)練AI大模型的數(shù)據(jù)來(lái)源過(guò)于復(fù)雜,媒體的新聞報(bào)道、個(gè)人發(fā)布的帖子、科研機(jī)構(gòu)的論文、各大公司報(bào)告等,很難一一統(tǒng)計(jì)和申請(qǐng)授權(quán)。
因而還需要全球互聯(lián)網(wǎng)企業(yè)、學(xué)術(shù)研究機(jī)構(gòu)聯(lián)合起來(lái),打造一個(gè)共享數(shù)據(jù)庫(kù),對(duì)互聯(lián)網(wǎng)上公開的數(shù)據(jù)進(jìn)行標(biāo)注,明確版權(quán)歸屬。AI公司需要數(shù)據(jù)時(shí),必須與互聯(lián)網(wǎng)公司和學(xué)術(shù)研究機(jī)構(gòu)成立的聯(lián)盟合作,商談能夠調(diào)用哪些數(shù)據(jù)、需要支付多少成本;ヂ(lián)網(wǎng)公司聯(lián)盟在打造共享數(shù)據(jù)庫(kù)的同時(shí),也要與創(chuàng)作者溝通合作,取得創(chuàng)作者的授權(quán)并支付相應(yīng)的費(fèi)用后,才能將內(nèi)容加入數(shù)據(jù)庫(kù)中。
(圖源:豆包AI生成)
這樣一來(lái),掌握大量數(shù)據(jù)的互聯(lián)網(wǎng)公司將承擔(dān)起“中間商”的責(zé)任,同時(shí)與創(chuàng)作者和AI公司對(duì)接,即保障了創(chuàng)作者可以獲取收益,本身也能從中抽取一定的利潤(rùn)。對(duì)于騰訊、百度、字節(jié)跳動(dòng)、FaceBook、X等國(guó)內(nèi)外互聯(lián)網(wǎng)公司而言,還多出了一條信息變現(xiàn)渠道。
AI公司雖要花錢購(gòu)買數(shù)據(jù),但抓取數(shù)據(jù)的難度大幅降低,獲取數(shù)據(jù)的渠道也會(huì)增多,反而能夠減少一部分成本。OpenAI工作人員吐槽數(shù)據(jù)不夠用,實(shí)際是公開且易獲取的數(shù)據(jù)不夠用了;ヂ(lián)網(wǎng)宛如一座冰山,只有三分之一浮在水面上,剩下的三分之二則藏在水底。唯有AI公司愿意付出相應(yīng)的成本,才能夠利用這部分?jǐn)?shù)據(jù)訓(xùn)練大模型。
健全的數(shù)據(jù)共享機(jī)制,是AI的基石
OpenAI前員工Ilya Sutskever曾表示,數(shù)據(jù)是AI的化石燃料,而這份燃料即將耗盡,但我們只有一個(gè)互聯(lián)網(wǎng),最大化數(shù)據(jù)的時(shí)代已經(jīng)過(guò)去了。再加上原定2024年中后期面世的GPT-5遲遲未能完成訓(xùn)練,不少人已在懷疑,人類社會(huì)的數(shù)據(jù)不夠支撐AI行業(yè)進(jìn)入下個(gè)階段。
事實(shí)上,人類社會(huì)每時(shí)每刻都在產(chǎn)生新數(shù)據(jù),《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告》顯示,2023年中國(guó)數(shù)據(jù)產(chǎn)生總量高達(dá)32.85ZB(澤字節(jié)),平均每天產(chǎn)生900億GB數(shù)據(jù)。
(圖源:豆包AI生成)
在網(wǎng)絡(luò)滲透進(jìn)我們生活、辦公、娛樂(lè)等各個(gè)領(lǐng)域,并覆蓋全球接近70%人口的今天,用于訓(xùn)練AI大模型的數(shù)據(jù)不夠用是個(gè)偽命題。對(duì)于AI公司而言,難點(diǎn)在于如何將有效數(shù)據(jù)提取出來(lái)。
相關(guān)部門提供法律基礎(chǔ)、互聯(lián)網(wǎng)巨頭合力打造數(shù)據(jù)庫(kù),篩選有效數(shù)據(jù)并保障創(chuàng)作者權(quán)益,無(wú)疑是最省時(shí)省力的方案。過(guò)去AI企業(yè)不缺數(shù)據(jù),又想著吃獨(dú)食,沒(méi)有打造共享數(shù)據(jù)庫(kù)的意識(shí)。如今形勢(shì)發(fā)生變化,易獲取的數(shù)據(jù)不足以支撐AI行業(yè)進(jìn)入下個(gè)階段,唯有所有企業(yè)消除隔閡齊心協(xié)力,方能渡過(guò)數(shù)據(jù)量不足的難關(guān)。
在元宇宙、區(qū)塊鏈、3D打印、常溫超導(dǎo)、人工智能等諸多被認(rèn)為可能是第四次工業(yè)革命導(dǎo)火索的產(chǎn)業(yè)中,目前看來(lái)最有希望引領(lǐng)人類開啟第四次革命的就是人工智能和與其相關(guān)的機(jī)器人產(chǎn)業(yè)。
為了推動(dòng)和規(guī)范行業(yè)發(fā)展,2024年10月21日的德國(guó)數(shù)字峰會(huì)上,德國(guó)施瓦茨數(shù)字公司和德國(guó)鐵路公司宣布成立“歐洲數(shù)據(jù)中心”,旨在為AI公司訓(xùn)練大模型提供數(shù)據(jù)支持。
該會(huì)議結(jié)束后僅一個(gè)月,中歐數(shù)字環(huán)境下版權(quán)保護(hù)研討會(huì)就在西安召開,表明中歐相關(guān)部門和企業(yè)有意合作,共同構(gòu)建AI行業(yè)發(fā)展基石。相信在全球諸多國(guó)家、企業(yè)的合作之下,未來(lái)數(shù)據(jù)將不再是困擾AI公司的難題。內(nèi)容創(chuàng)作者在提供數(shù)據(jù)幫助AI公司訓(xùn)練大模型的同時(shí),也將能夠從中獲利,告別頻繁被侵權(quán)卻拿不到任何收益的時(shí)代。
來(lái)源:雷科技
原文標(biāo)題 : 訴訟頻發(fā)!AI訓(xùn)練“盜用”版權(quán)內(nèi)容,建立共享數(shù)據(jù)庫(kù)迫在眉睫?

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市