OpenAI 近期推出了炙手可熱的文本轉(zhuǎn)視頻生成模型 Sora,然而該公司首席技術(shù)官 (CTO) Mira Murati 在接受華爾街日?qǐng)?bào)采訪時(shí)卻語(yǔ)焉不詳,無(wú)法明確說(shuō)明 Sora 的訓(xùn)練數(shù)據(jù)來(lái)源。
在采訪中,記者直接詢(xún)問(wèn) Murati 關(guān)于 Sora 訓(xùn)練數(shù)據(jù)來(lái)源時(shí),她僅以含糊的官方話術(shù)搪塞:“我們使用的是公開(kāi)可用數(shù)據(jù)和許可數(shù)據(jù)!
當(dāng)記者追問(wèn)具體來(lái)源是否包含 YouTube 視頻時(shí),Murati 竟然表示“我實(shí)際上并不確定(I'm actually not sure about that)”,并拒絕回答有關(guān) Instagram 或 Facebook 視頻是否被納入訓(xùn)練集的問(wèn)題。她辯稱(chēng),如果這些視頻是公開(kāi)可用且可以使用的,那么可能會(huì)被使用,但她本人對(duì)此并不確定。
當(dāng)記者詢(xún)問(wèn) OpenAI 是否與其合作伙伴圖片素材公司 Shutterstock 達(dá)成過(guò)數(shù)據(jù)訓(xùn)練方面的合作,Murati 索性拒絕繼續(xù)討論數(shù)據(jù)來(lái)源話題。
Murati 甚至回避記者關(guān)于 OpenAI 與圖片素材巨頭 Shutterstock 的數(shù)據(jù)合作,拒絕透露來(lái)自該平臺(tái)的視頻是否被用于訓(xùn)練 Sora。最終,她干脆中止了相關(guān)討論,堅(jiān)稱(chēng)數(shù)據(jù)來(lái)源“肯定是公開(kāi)可用或經(jīng)過(guò)許可的”,卻無(wú)法給出任何具體細(xì)節(jié)。
Murati 這番閃爍其詞的做法讓 OpenAI 陷入尷尬境地。此前,該公司就因數(shù)據(jù)抓取行為引發(fā)廣泛爭(zhēng)議,甚至面臨多起版權(quán)訴訟,其中就包括紐約時(shí)報(bào)的指控。如今,連 CTO 都無(wú)法說(shuō)清其最熱門(mén)模型的訓(xùn)練數(shù)據(jù)來(lái)源,難免讓人懷疑 OpenAI 高層對(duì)該問(wèn)題的重視程度。
據(jù)報(bào)道,采訪結(jié)束后,Murati 私下承認(rèn)了確有使用 Shutterstock 視頻訓(xùn)練 Sora。然而,相較于網(wǎng)絡(luò)上浩如煙海的視頻內(nèi)容,來(lái)自 Shutterstock 的素材可能只是 Sora 訓(xùn)練數(shù)據(jù)的一小部分。
Murati 的諱莫如深引發(fā)了網(wǎng)友熱議。不少人認(rèn)為她缺乏坦誠(chéng),質(zhì)疑其對(duì)自身產(chǎn)品的了解程度。有人直言,CTO 竟然對(duì)如此關(guān)鍵的問(wèn)題不知情,實(shí)在令人難以置信。
然而,也有人為 Murati 辯護(hù),認(rèn)為既然內(nèi)容已經(jīng)發(fā)布到網(wǎng)絡(luò),就應(yīng)該允許人工智能公司加以利用。他們認(rèn)為,用戶既然選擇公開(kāi)內(nèi)容,就應(yīng)該承擔(dān)被使用的風(fēng)險(xiǎn)。
Murati 的回避行為究竟是為了防止更多版權(quán)糾紛,還是真的對(duì)數(shù)據(jù)來(lái)源一無(wú)所知,我們不得而知。但可以肯定的是,公眾有權(quán)質(zhì)疑這些“公開(kāi)可用且經(jīng)過(guò)許可”的 AI 訓(xùn)練數(shù)據(jù)究竟來(lái)自何處。未來(lái),含糊其辭的官方說(shuō)辭恐怕難以平息人們的疑慮。