News and information
2024.04.15來源: 人民郵電報編輯:媒體部
美國人工智能公司OpenAI推出GPT Store,掀起AI應(yīng)用新潮流;谷歌遭遇裁員風(fēng)波,聚焦AI戰(zhàn)略調(diào)整;特斯拉創(chuàng)始人埃隆·馬斯克起訴OpenAI,指控其背離了初衷,將人工智能用于盈利而非為人類福祉服務(wù)……近期,人工智能領(lǐng)域大模型聲勢高漲,產(chǎn)品與服務(wù)推陳出新,但同時也伴隨著諸多爭議,尤其是在數(shù)據(jù)安全方面。
AI大模型訓(xùn)練是一個復(fù)雜而精細(xì)的過程,它依賴于大量的高質(zhì)量數(shù)據(jù)來提升模型的性能和智能水平。在這個過程中,科技巨頭為了保持競爭優(yōu)勢,不斷尋求更豐富的數(shù)據(jù)資源,包括文本、圖片、視頻以及專業(yè)領(lǐng)域的知識等,從而使AI模型能夠更好地生成和理解內(nèi)容。
訓(xùn)練AI模型時,數(shù)據(jù)的來源和使用方式也引起了公眾和法律界的廣泛關(guān)注。特別是當(dāng)涉及版權(quán)、隱私和知識產(chǎn)權(quán)等敏感問題時,數(shù)據(jù)的使用就更需謹(jǐn)慎。最近,視頻網(wǎng)站YouTube首席執(zhí)行官尼爾·莫漢(Neal Mohan)在一次采訪中提到了這一問題,他表示,盡管沒有直接證據(jù)表明OpenAI使用了YouTube的視頻內(nèi)容來訓(xùn)練其文生視頻AI工具Sora,但如果確實(shí)存在這種行為,那么這將明顯違反YouTube平臺的使用條款。
莫漢表示,YouTube平臺上的內(nèi)容創(chuàng)作者有權(quán)對他們的作品進(jìn)行控制,包括如何使用這些內(nèi)容。當(dāng)創(chuàng)作者將他們的作品上傳到Y(jié)ouTube時,他們期望這些內(nèi)容能夠受到保護(hù),并按照平臺的規(guī)則和他們與平臺之間的協(xié)議來使用。這意味著,任何未經(jīng)授權(quán)的使用,尤其是用于商業(yè)目的的AI模型訓(xùn)練,都可能構(gòu)成侵權(quán)行為。
此外,《紐約時報》的報道認(rèn)為,OpenAI和谷歌可能使用了YouTube視頻的轉(zhuǎn)錄文本來訓(xùn)練他們的AI模型,這可能侵犯了內(nèi)容創(chuàng)作者的版權(quán)。OpenAI被指控使用其Whisper語音識別工具轉(zhuǎn)錄了超過100萬小時的YouTube視頻內(nèi)容,并用這些數(shù)據(jù)來訓(xùn)練其模型。這一行為如果未經(jīng)內(nèi)容創(chuàng)作者的許可,就可能違反了版權(quán)法,并引發(fā)關(guān)于AI訓(xùn)練數(shù)據(jù)合法性的討論。
在AI領(lǐng)域,數(shù)據(jù)的重要性不言而喻。隨著數(shù)據(jù)資源的日益緊張,如何合法、合規(guī)地獲取和使用數(shù)據(jù)成為一個亟待解決的問題。特別是在AI大模型備受矚目且承載厚望的當(dāng)下,數(shù)據(jù)的質(zhì)量、多樣性以及專業(yè)性等將直接決定AI模型生成內(nèi)容的質(zhì)量高低和適用場景的廣泛程度。
推動人工智能產(chǎn)業(yè)快速發(fā)展,要把保障數(shù)據(jù)安全放在突出位置。近年來,我國高度重視人工智能安全發(fā)展,逐步完善相關(guān)政策法規(guī)。國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,提出面向2030年我國新一代人工智能發(fā)展的指導(dǎo)思想、戰(zhàn)略目標(biāo)、重點(diǎn)任務(wù)和保障措施,部署構(gòu)筑人工智能發(fā)展的先發(fā)優(yōu)勢,加快建設(shè)創(chuàng)新型國家和世界科技強(qiáng)國。面向算法治理,出臺《關(guān)于加強(qiáng)互聯(lián)網(wǎng)信息服務(wù)算法綜合治理的指導(dǎo)意見》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》等。面向人工智能合成技術(shù)的快速突破,出臺《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等。在全球數(shù)字經(jīng)濟(jì)激烈競爭格局下,科學(xué)把握風(fēng)險防范的尺度至關(guān)重要。
以大模型為代表的人工智能技術(shù),其潛能正日益顯現(xiàn)。要抓住這一技術(shù)所帶來的巨大機(jī)遇,必須同時警惕其潛在的安全風(fēng)險和隱患。因此,科技企業(yè)需要采取更為透明和負(fù)責(zé)任的舉措來對待數(shù)據(jù)問題。這要求企業(yè)積極與內(nèi)容創(chuàng)作者建立合作關(guān)系,確保獲取的數(shù)據(jù)擁有合法授權(quán)。同時,積極探索新的數(shù)據(jù)來源,例如利用合成數(shù)據(jù)和公開數(shù)據(jù)集。合成數(shù)據(jù)可以幫助解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量不高等問題,特別是在一些難以獲取真實(shí)數(shù)據(jù)的場景中,合成數(shù)據(jù)成為訓(xùn)練AI模型的有效手段。此外,企業(yè)還需要加強(qiáng)內(nèi)部的數(shù)據(jù)管理和合規(guī)審查,確保所有的數(shù)據(jù)使用都符合法律法規(guī)和道德標(biāo)準(zhǔn)。