“谷歌計劃在旗艦搜索引擎中添加對話式人工智能功能,這將引導(dǎo)公司應(yīng)對來自ChatGPT等聊天機器人的競爭和更廣泛的業(yè)務(wù)壓力!惫雀枋紫瘓(zhí)行官Sundar Pichai在近日的一次采訪中表示,AI并不會對谷歌的搜索業(yè)務(wù)構(gòu)成威脅,相反,人工智能的進步會增強谷歌搜索查詢的能力。
然而,在高調(diào)推動研發(fā)的同時,谷歌的經(jīng)濟狀況卻并不樂觀。自2023年1月宣布裁員12000人(占Alphabet總員工6%)之后,近日,谷歌首席財務(wù)官Ruth Porat又向員工表示,預(yù)計將從餐飲設(shè)施到公司計算基礎(chǔ)設(shè)施等領(lǐng)域削減更多支出。有趣的是,谷歌稱“這對開發(fā)和運行強大的人工智能算法至關(guān)重要”。
就在谷歌“砸鍋賣鐵”研發(fā)大型語言模型(LLM)的同時,ChatGPT及類似的LLM們,也開始“大殺八方”。
近日,美國就業(yè)服務(wù)平臺Resume Builder公布的一項調(diào)查統(tǒng)計顯示,在1000多家受訪美國企業(yè)中,有48%的企業(yè)已經(jīng)在用ChatGPT取代人類員工。
新聞出版業(yè)感受到了這場沖擊波。今天的AI越來越讓人深刻體到會什么叫“教會徒弟餓死師傅”。正在搶走你工作崗位,替代你的ChatGPT們,其實正是在無數(shù)遍調(diào)用你的工作數(shù)據(jù)之后,利用你的這些工作成果訓(xùn)練出來的。
而媒體行業(yè)的老板們也正在思考如何執(zhí)行“打不過就加入”的策略,他們希望嘗試跟微軟、OpenAI、谷歌這樣的AI研發(fā)公司分分ChatGPT的“錢”。
3月23日,美國新聞集團旗下媒體華爾街日報報道,有知情人士透露,最近幾周,美國出版行業(yè)的高管們對于ChatGPT的爆火也坐不住了。他們正在研究出版集團們的內(nèi)容在多大程度上被用于“培訓(xùn)”ChatGPT等人工智能工具。
一場針對版權(quán)、法規(guī)的爭論正在展開。
每個碼字工可能都被ChatGPT白嫖了
對此,美國新聞媒體聯(lián)盟的高層們討論的核心是人工智能公司是否有合法權(quán)利從互聯(lián)網(wǎng)上抓取內(nèi)容,并將其用于他們的AI大模型訓(xùn)練。而目前,美國有一項名為“合理使用”的法律條款,似乎允許AI公司在某些情況下,使用未獲授權(quán)的版權(quán)材料。
“我們有有價值的內(nèi)容,而現(xiàn)在,這些我們花費人力、財力創(chuàng)造的內(nèi)容,正在不斷被用于為其他人創(chuàng)造收入!泵绹侣劽襟w聯(lián)盟執(zhí)行副總裁兼總法律顧問Danielle Coffey認為,在這個問題上,新聞出版公司理應(yīng)得到經(jīng)濟補償。
OpenAI首席執(zhí)行官Sam Altman在此前接受的采訪中曾表示,“我們在合理使用數(shù)據(jù)方面投入很大,我們愿意為某些領(lǐng)域的高質(zhì)量數(shù)據(jù)支付大量費用!崩缈茖W(xué)領(lǐng)域。在必要時,OpenAI已經(jīng)就內(nèi)容達成了協(xié)議。
事實上,“版權(quán)”的概念在互聯(lián)網(wǎng)誕生之際就發(fā)生過一次變革,“分享”的概念隨著互聯(lián)網(wǎng)的高速傳播能力打破了很多版權(quán)商對內(nèi)容的壟斷。此后,版權(quán)之爭更是成為了內(nèi)容生產(chǎn)者、分發(fā)渠道、廣大用戶以及利益鏈上的各個相關(guān)實體不可避免的爭議話題。
美國新聞集團對AI主要的擔憂在于,人工智能工具可能會耗盡其網(wǎng)站的流量和廣告資金。目前,微軟提供的NewBing,會在用戶問題的答案中包含鏈接。然而美國出版商的高管表示,有多少用戶實際上會點擊這些鏈接并訪問他們的網(wǎng)站,這是一個很難確定的問題。
事實上,AI可能確實會影響用戶對版權(quán)內(nèi)容的閱讀。Bing Chat可以針對網(wǎng)站內(nèi)容給出全面的總結(jié)分析式回答,從而大幅降低了用戶點擊原文鏈接的欲望。在對Bard的測試過程中,虎嗅發(fā)現(xiàn),只要給Bard提供鏈接,它就可以直接為用戶解讀網(wǎng)頁內(nèi)容,包括一些需要付費瀏覽的內(nèi)容。不過由于Bard目前只支持美國和英國地區(qū)用戶,所以它目前只能解讀這些國家的網(wǎng)站。
谷歌的Bard通過網(wǎng)址解讀美媒The information的付費新聞
目前,美國出版商行業(yè)組織新聞媒體聯(lián)盟已經(jīng)開始與微軟和谷歌的代表會面,并主張自己的權(quán)利,要求AI訓(xùn)練公司為數(shù)據(jù)、內(nèi)容付費。如果談判效果不理想,這些出版集團也不排除在該問題上訴諸法律。
ChatGPT們的學(xué)費該怎么交
從OpenAI目前透露的信息來看,在GPT-3的訓(xùn)練過程中,很多數(shù)據(jù)是來自開源數(shù)據(jù)組織Common Crawl利用爬蟲抓取的數(shù)據(jù)。
Common Crawl是一個501非營利組織,它利用爬蟲對網(wǎng)絡(luò)進行抓取,并向公眾免費提供其檔案和數(shù)據(jù)集。Common Crawl的網(wǎng)絡(luò)存檔包含自2011年以來收集的PB級數(shù)據(jù)。通常每個月都會完成爬網(wǎng)。Common Crawl由Gil Elbaz創(chuàng)建。該非營利組織的顧問包括Peter Norvig和Joi Ito。
Common Crawl的數(shù)據(jù)使用條款中要求不可將數(shù)據(jù)用于非法用途,以及如下事項:從事辱罵、騷擾、仇恨或其他冒犯性活動;侵犯他人隱私;危害未成年人;侵犯他人的權(quán)利(IP、專有等);規(guī)避復(fù)制保護;干擾或破壞我們的網(wǎng)站、服務(wù)或安全;垃圾郵件的人;跟蹤人;冒充他人或以其他方式偽裝您的身份;偽造標題或以其他方式偽裝我們的內(nèi)容;收集個人身份信息;為商業(yè)招攬而溝通。
雖然未提及不可用于商業(yè)用途,但Common Crawl的使用協(xié)議中,也聲明了要求保護版權(quán)、商標等。所以,對于版權(quán)所有方提出的付費要求,使用了版權(quán)數(shù)據(jù)的AI大模型研發(fā)公司,理應(yīng)回應(yīng)付費或是補償需求。
不過,從長遠來看,這個付費模式,對于AI大模型來說恐怕還有很大的討論空間。畢竟AI大模型在學(xué)習(xí)了版權(quán)數(shù)據(jù)之后可能創(chuàng)造的價值,遠大于一次性版權(quán)付費。而出版社或許更關(guān)注他們的版權(quán)內(nèi)容,在AI工具中是否有侵權(quán)性的展示和露出,從而以此與AI工具的研發(fā)者建立長期分利的分利模式。
“生成式AI通常不會直接展示學(xué)習(xí)到的內(nèi)容,他都會進行總結(jié)提煉,或是轉(zhuǎn)化成自己的話敘述給你。”西湖心辰COO俞佳告訴虎嗅,AI大模型本身不存儲數(shù)據(jù),它存儲的是參數(shù)。而參數(shù)代表著在算法、模型框架之下,數(shù)據(jù)之間的關(guān)系。因此AI輸出的內(nèi)容,通常情況下都不會是原本的數(shù)據(jù)或內(nèi)容的復(fù)刻,也就很難界定是否侵權(quán)了。
此外,俞佳認為,深度學(xué)習(xí)的底層邏輯是“學(xué)習(xí)”,對于版權(quán)內(nèi)容的一次性付費是合理的,但長期付費需要更創(chuàng)新的版權(quán)人收益模式!皩τ谥R來說,AI和人有些相似。比如說,我看了一本書,然后我用書里學(xué)到的知識賺到了錢,那么我需不需要或者應(yīng)該用什么方式來回報這本書的作者?這需要創(chuàng)新的解法”
由于國內(nèi)AI大模型研發(fā)和應(yīng)用相對于國外來說起步稍晚了一些,且ChatGPT官方尚不支持中國地區(qū)的應(yīng)用。所以AI暫時還沒有觸碰到國內(nèi)出版商的利益,國內(nèi)相關(guān)機構(gòu)也尚未對此提出大規(guī)模的公開質(zhì)疑。
虎嗅為此詢問了一些出版行業(yè)專業(yè)人士,某國內(nèi)出版社資深法務(wù)專家表示,“國內(nèi)版權(quán)保護意識基礎(chǔ)較為薄弱,在很多環(huán)節(jié)還跟不上。雖然現(xiàn)在ChatGPT對中國出版業(yè)界還沒有構(gòu)成明顯的威脅,但對AI的版權(quán)問題和生成式內(nèi)容的權(quán)屬界定問題,已經(jīng)被行業(yè)廣泛關(guān)注了!
“新聞報道在國內(nèi)的相關(guān)的法律當中,特別是著作權(quán)法,是享有著作權(quán)的!庇^韜中茂律師事務(wù)所合伙人王渝偉向虎嗅介紹說,AI大模型利用享有著作權(quán)的內(nèi)容去進行非營利性的科學(xué)研究問題不大,但是一旦商用,就需要為這部分內(nèi)容支付相應(yīng)的許可費用。
不過,王渝偉也表示,目前AI大模型訓(xùn)練對于版權(quán)內(nèi)容的使用與否,用了多少,都很難界定。因此,很難在法律上對著作權(quán)人提供有效的保護。但這顯然不能成為侵權(quán),或者說不付費、不許可的前提條件。不過具體到出版商或著作權(quán)人,如何與AI研發(fā)者分成,可能還需要雙方接觸,談判確定。在這方面短期來看,法律也不會直接給出規(guī)定的數(shù)額。
吃我飯,還砸我碗?
在討論該如何向ChatGPT收學(xué)費的同時,出版商或許更加擔憂ChatGPT的生成能力可能會威脅到新聞出版集團的主業(yè)。這也使得AI在出版集團面前的形象成了——“吃我飯,還砸我碗”。
最新發(fā)布的GPT-4眾多亮點中,就包括在大量專業(yè)技能考試中取得超越人類平均水平的成績,在很多執(zhí)業(yè)資格考試中,甚至超過90%的人類考生。由此,人們自己會否被AI取代的擔憂日益加深。
2023年1月,還處在輿論升溫階段的ChatGPT,已經(jīng)被美國版今日頭條Buzzfeed注意到,并第一個聲稱將在未來一年中把ChatGPT能力全面應(yīng)用到內(nèi)容生產(chǎn)中。此后,Buzzfeed股價連日大漲,資本對AI替代人類編輯記者的想法,可謂是非?春。
此后不久,在3月初,Buzzfeed就開始利用ChatGPT進行內(nèi)容生產(chǎn)了。用一個名為“Buzzy the Robot”的名字發(fā)布了40多份旅游指南,目的地包括斯德哥爾摩、布拉格和大阪等。
不過,有細心的網(wǎng)友在閱讀之后發(fā)現(xiàn),Buzzy機器人撰寫的文章中,有五分之一的都采用了幾乎相同的開頭。這些文章通常以“Now, I know what you are thinking(現(xiàn)在,我知道你在想什么)”這句話開頭,然后是關(guān)于該特定目的地的反問句。例如:“I know what you’re thinking: isn’t Stockholm that freezing, gloomy city up in the north that nobody cares about?”( 我知道你在想什么:斯德哥爾摩不是那個寒冷、陰暗的北部城市,沒有人關(guān)心嗎?)
對此,有人認為,AI作者在寫文章方面,要比人類“懶”得多。不過,從AI目前在內(nèi)容生產(chǎn)領(lǐng)域的表現(xiàn)來看,這項專業(yè)技能或許尚不足以直接威脅到相關(guān)從業(yè)者。
在ChatGPT以及類似的LLM生產(chǎn)內(nèi)容的過程中,還有一個很難跨越的問題,那就是準確率的問題。雖然GPT-4在這方面已經(jīng)有很大改進,但仍然無法擺脫GPT模型生成內(nèi)容的固有模式。
GPT模型的內(nèi)容都是根據(jù)上下文一個字一個字地生成的,因此面對人類的提問,AI模型的目的就是回答,寫完這段話,而它不會對內(nèi)容負責(zé)。在很多他不是很清楚的問題上,AI還不能做到對每個問題停下來,問問人類這是什么?這是怎么回事?或是質(zhì)疑人類的觀點。
除此以外,現(xiàn)階段人類大腦對于AI最大的優(yōu)勢可能還是“廉價”。目前ChatGPT的API價格是$0.03/1000個prompt tokens,$0.06/1000個completion tokens。GPT-4的API報價是$0.03/1000個prompt tokens,$0.06/1000 個completion tokens。相比之下,人類員工坐在電腦前時,只要你夠卷,他可以為你提供低價的無限token算力。
同時,這位人類員工還具備AI很難實現(xiàn)的理解和學(xué)習(xí)的能力,在面對新事物時人類擁有創(chuàng)造力和主觀判斷力。而AI在這方面的能力顯然還很不夠,畢竟GPT-4只是發(fā)布了一個識別梗圖的功能,就已經(jīng)讓全世界興奮到恐懼了。